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计算 机 处 理 的 对 象 是 数据 ,数据 可 以 是 以 数字 符号 为 基础 的 数值 型 数据 和 由 字符 、 音 
频 、 视 频 乃 至 网 页 等 组 成 的 非 数 值 型 数据 。 作 为 一 个 学 科 , 计 算 机 科学 技术 主要 应 用 于 非 数 
值 型 数据 。 在 众多 的 非 数值 型 数据 的 应 用 中 ,有 一 类 称 为 数据 密集 型 的 计算 机 应 用 领域 ,其 
基本 特征 是 涉及 数据 体 量 巨 大 、 数 据 计 算 结 果 需 要 长 久 驻 留 计 算 机 及 数据 保持 大 范围 共享 
等 。 这 是 迄今 为 止 最 大 的 计算 机 应 用 领域 ,因为 任何 规模 化 的 计算 机 信息 管理 系统 都 需要 
以 其 为 底层 技术 支撑 ,这 就 是 数据 库 技术 。 

计算 机 应 用 从 技术 实现 角度 来 看 ,可 以 分 为 数据 计算 和 数据 管理 。 数 据 库 技术 属于 数 
据 管理 的 技术 范畴 。 自 20 世纪 50 年 代 中 期 开始 至 今 , 数 据 管理 经 历 了 人 工 管理 (基于 应 用 
程序 ) 文件 系统 管理 (基于 操作 系统 ) 和 数据 库 管理 (基于 DBMS) 三 段 历史 进程 ; 而 自 20 
世纪 60 年 代 中 后 期 开始 至 今 ,数据 库 自 身 也 经 历 了 由 第 一 代数 据 库 ( 层 次 和 网 状 数据 库 ) 到 
第 二 代数 据 库 (关系 数据 库 ) 再 到 第 三 代数 据 库 ( 以 对 象 数据 库 为 典型 代表 的 各 类 新 型 数据 
库 ) 的 3 个 发 展 阶段 。 如 果 将 关系 数据 库 等 看 作 是 经 典 数据 库 , 则 通常 可 以 将 包括 对 象 数据 
库 在 内 及 其 之 后 出 现 的 各 类 数据 库 通 称 为 高 级 数据 库 或 现代 数据 库 。 这 些 数据 库 或 者 基于 
数据 模型 的 创新 ,或 者 出 于 应 用 维度 的 扩展 ,或 者 与 计算 机 各 类 新 鲜 的 主流 技术 密切 结合 ， 
它们 共同 构成 当今 兴旺 发 达 的 整个 数据 库 家 族 。 这 个 数据 库 家 族 相当 庞大 ,以 致 需要 从 各 
个 不 同 角度 进行 审视 和 不 同 层面 展开 讨论 才 有 可 能 理解 与 把 握 。 本 书 主要 是 从 数据 模型 及 
建立 在 其 上 的 数据 操作 原理 视角 进行 内 容 组 织 和 展开 叙述 的 。 

本 书 共 分 为 10 章 。 第 1 章 是 绪论 , 简 述 数据 管理 的 产生 背景 .技术 路 线 ,以 及 数据 库 技 
术 在 整个 计算 机 科学 技术 领域 中 的 地 位 和 意义 。 第 2 章 是 关系 数据 库 基础 ,由 于 高 级 数据 
库 中 许多 概念 ,原理 和 技术 都 与 关系 数据 库 有 着 密切 关联 ,深刻 地 认识 和 把 握 关系 数据 库 技 
术 对 于 其 他 数据 库 技术 的 学 习 与 研究 是 不 可 或 缺 的 。 第 3 章 和 第 4 章 讨论 对 象 数 据 库 技 
术 , 其 中 第 3 章 的 面向 对 象 数据 库 是 基于 全 新 数据 模型 的 数据 库 ,可 以 看 作 是 C++ 基于 数据 
库 机 制 的 扩充 ; 第 4 章 的 对 象 关系 数据 库 的 数据 模型 基础 仍然 是 关系 模型 ,可 以 看 作 是 
SQL 关于 面向 对 象 原理 方法 的 扩充 。 第 5 章 和 第 6 章 分 别 是 空间 数据 库 和 时 态 数据 库 , 可 
以 看 作 是 由 于 数据 库 应 用 领域 扩大 和 应 用 层面 深化 而 驱动 数据 库 在 空间 和 时 间 应 用 维度 方 
面 的 扩展 ,这 种 扩展 可 能 被 局 限于 关系 数据 模型 (如 时 态 关 系数 据 模型 ), 也 可 能 需要 建立 新 
的 数据 模型 (如 空间 数据 的 镶嵌 数据 模型 和 矢量 数据 模型 )。 第 7 童 是 XML 数据库, 这 是 
一 种 半 结 构 化 数据 的 管理 技术 ,有 别 于 结构 化 的 关系 数据 与 对 象 数据 ,通常 需要 建立 反映 出 
“数据 与 结构 融合 ”自身 特点 的 更 为 复杂 的 数据 模型 。 第 8 章 是 移动 对 象 数据 库 , 这 是 为 了 
适应 由 于 网 络 技 术 发 展 和 移动 通信 终端 设备 普及 而 带 来 的 新 的 数据 管理 需求 。 第 9 章 是 大 
数据 技术 简 述 ,从 数据 管理 角度 考虑 ,可 以 看 作 是 一 种 范围 更 为 广阔 和 内 容 更 为 新 颖 的 分 布 
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式 数据 管理 技术 ,其 中 NoSQL 实际 上 是 将 常规 的 数据 库 技 术 推 向 了 一 个 新 的 阶段 。 第 10 
章 是 时 态 数据 索引 技术 。 各 类 新 型 数据 库 通常 都 没有 成 熟 DBMS 支持 ,数据 存 取 的 有 效 途 
径 多 是 基于 研究 和 开发 相应 的 数据 索引 ,因此 ,数据 索引 也 就 成 为 高 级 数据 库 技 术 的 基本 内 
容 之 一 。 本 章 应 用 时 态 数 据 库 相关 知识 建立 了 时 态 数据 索引 框架 ,并 将 其 应 用 到 XML 数 
据 索引 和 移动 对 象 数据 索引 ,这 实际 上 可 看 作 是 本 书 主要 内 容 的 一 个 综合 应 用 。 

本 书 的 第 1 章 ,. 第 3 一 7 章 和 第 10 童 主要 由 叶 小 平 编写 ,第 2 章 主要 由 李强 编写 ,第 8 
章 主要 由 叶 晟 编写 ,第 9 章 主 要 由 陈 瑛 编写 ,同时 , 陈 瑛 参与 了 第 5 章 和 第 10 章 的 编写 , 李 
强 参与 了 第 9 章 的 编写 , 叶 晟 参与 了 第 7 章 的 编写 。 全 书 由 叶 小 平 负责 统筹 。 在 本 书 编写 
过 程 中 得 到 汤 庸 教授 的 热情 鼓励 和 大 力 支 持 , 其 中 不 少 观点 的 提出 和 材料 的 选择 都 得 到 了 
汤 庸 教授 的 启示 和 帮助 ,在 此 谨 致 以 衷心 感谢 ! 同时 , 书 中 参考 和 借鉴 了 较 多 的 数据 库 方面 
相关 专著 经典 教材 和 科研 论文 , 书 中 每 章 之 后 附 有 其 中 的 主要 参考 文献 ,然而 难以 一 一 列 
举 ,作者 对 此 表示 鞭 意 。 由 于 本 书 涉及 的 许多 内 容 已 经 成 为 经 典 , 不 少 专著 和 教材 中 对 其 都 
有 专项 论述 ,加 之 本 书 性 质 定 位 所 限 , 因 而 大 多 没有 列举 原始 的 文献 资料 ,这 里 谨 对 本 书 涉 
及 的 相关 书目 和 文献 的 专家 学 者 们 表示 诚挚 的 谢意 ! 

此 外 , 林 衍 崇 和 陈 钊 漳 等 研究 生 也 参与 了 本 书 部 分 内 容 的 讨论 和 完成 。 

由 于 高 级 数据 库 领 域 范畴 广 而 深究, 相关 技术 日 新 月 异 , 即 使 本 书 所 论 及 部 分 也 难免 挂 
一 漏 万 , 失 之 偏颇 。 加 上 编著 者 学 识 和 经 验 所 限 ,疏漏 与 不 当 之 处 在 所 难免 , 恭 待 专家 学 者 
和 教学 同行 批评 指正 。 


2018 年 5 月 于 
中 山大 学 海滨 红楼 及 广东 东软 学 院 Lisp 园 
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第 1 章 绪 论 





数据 库 可 以 看 作 是 基于 数据 管理 的 计算 机 技术 系统 ,一 般 而 言 , 它 由 一 组 相互 关联 的 数 
据 集 合 和 一 组 用 于 访问 及 操纵 数据 的 计算 机 程序 组 成 。 数 据 库 技术 是 计算 机 学 科 中 发 展 最 
快 和 应 用 最 广 的 重要 领域 之 一 。 由 于 任何 信息 管理 系统 都 需要 有 数据 库 的 后 台 支 持 ,因此 
数据 库 应 用 现在 已 经 成 为 人 们 社会 经 济 活动 中 不 可 或 缺 的 核心 技术 支撑 。 同 时 数据 库 还 通 
过 互联 网 融入 人 们 日 常生 活 的 方方面面 ,如 ATM、 网 上 购物 、 浏 览 信息 和 社交 网 络 等 。 正 
是 由 于 数据 库 技术 在 各 类 计算 机 应 用 中 占有 很 大 比重 ,专注 数据 库 技术 研制 开发 的 Oracle 
早已 成 为 当今 最 大 的 计算 机 软件 公司 之 一 ,而 其 他 具有 重大 影响 力 的 计算 机 巨头 ,如 微软 和 
IBM 也 都 以 相应 的 数据 库 管理 系统 为 其 主打 的 支柱 产品 。 本 章 简要 介绍 数据 库 技术 的 发 
展 及 其 在 整个 计算 机 学 科 领 域 中 的 地 位 和 意义 。 


1.1 数据 及 其 特性 


在 计算 机 信息 时 代 ,“ 数 据 ” 是 广泛 使 用 的 一 个 术语 .但 越 是 使 用 广泛 的 通常 也 是 越 难以 
明确 定义 的 ,因为 它 可 能 是 所 有 相关 概念 的 “源头 ”, 或 者 说 是 元 概念 ,抑或 根本 就 无 法 进行 
严格 定义 和 准确 描述 “不幸 ” 的 是 “数据 ?与 “信息 "一 样 , 就 是 这 样 的 元 概念 。 没 有 明确 定 
义 而 又 应 用 极其 广泛 ,这 一 有 趣 现象 事实 上 是 普遍 存在 的 ,如 "生命 ”“ 人 ”智慧 ”能 量 ” 和 
“质量 ”等 都 是 如 此 。 这 类 * 伞 形 "概念 实际 上 需要 从 其 最 常见 .最 有 用 特征 和 与 其 他 相关 概 
念 最 基本 联系 等 方面 进行 适当 描述 和 把 握 ,从 而 以 其 为 基础 建立 起 庞大 适用 的 体系 。 对 于 
“数据 ”而 言 ,人 们 只 能 如 此 处 理 。 


1.1.1 数据 概念 


数据 (data) 一 词 来 自 拉丁 文 “to give”, 意 为 “给 ”或 “供给 ”。 由 此 引申 ,数据 可 以 看 作 是 
确定 的 事实 ,并 且 能 从 中 推断 出 新 的 事实 。 

为 什么 会 有 数据 ? 人 之 所 以 能 够 从 一 般 灵 长 类 动物 中 脱颖而出 ,就 是 因为 逐步 进化 出 
能 够 描述 .认识 和 利用 客观 事物 和 现象 的 基本 能 力 。 随 着 人 类 文明 的 不 断 进步 ,人 们 意识 到 
仅仅 使 用 一 般 的 语言 文字 和 图 形 图 像 描述 他 们 所 处 的 这 个 世界 是 不 够 精确 的 ,这 种 描述 对 
于 发 展 科 学 技术 乃至 推动 人 类 社会 不 断 前 行 更 是 远 远 不 够 的 。 为 了 准确 描述 客观 世界 (如 
科学 技术 所 必需 的 各 种 测量 等 ) ,也 为 了 有 效 地 展开 社会 经 济 活动 (如 货币 使 用 和 贸易 交换 
等 ) ,更 为 了 充分 改造 和 利用 自然 (如 按照 科学 规律 设计 、 建 造 机 器 和 建筑 等 ), 人 们 还 需要 
“数据 ?这 种 特定 的 信息 表述 形式 ,并 进行 彼此 间 的 交互 。 从 本 质 上 来 看 ,人 类 的 一 切 生产 、 
交换 等 社会 活动 都 可 以 说 是 以 “数据 ?为 基础 而 有 效 展开 的 ,数据 的 出 现 和 使 用 ,应 当 是 人 类 
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文明 的 重大 进步 之 一 。 

鉴于 “数据 "概念 的 重要 性 和 基础 性 ,通常 需要 从 下 述 不 同 的 角度 来 理解 和 掌握 。 

1. 从 数据 表现 形式 上 考虑 

从 本 源 上 考虑 ,数据 是 客观 事物 某 种 特征 在 人 们 意识 中 的 反映 ,因此 具有 特定 的 表示 
形式 。 

(1) 广义 数据 : 描述 客观 实体 特征 的 各 种 实体 或 符号 记录 。 例 如 ,远古 人 类 的 小 棍 计 
数 、 结 绳 刻 痕 记事 等 以 具体 实物 形式 表示 的 数据 ; 文明 社会 中 以 语言 文字 声音 图 形 和 各 类 
数字 等 具有 不 同 抽象 层级 的 符号 形式 对 事物 特征 或 数量 上 进行 的 描述 等 。 

(2) 狭义 数据 : 能 够 通过 数字 化 编码 进入 计算 机 并 由 计算 机 进行 处 理 的 抽象 符号 集 
合 。 在 当今 的 信息 时 代 , 人 们 通常 从 这 种 狭义 角度 理解 和 界定 “数据 ?概念 。 

2. 从 数据 基本 来 源 上 考虑 

按照 数据 的 来 源 区 分 ,数据 可 以 有 下 述 几 种 形式 。 

(1) 测量 型 数据 : 如 上 所 述 ,数据 首先 源 于 人 们 认识 和 改造 客观 世界 所 必需 的 “直接 ” 
测量 。 作 为 “有 根据 的 数字 ”, 数 据 指 的 就 是 对 客观 世界 测量 结果 的 表述 。 测 量 是 人 类 进行 
各 种 活动 中 不 可 或 缺 的 基本 手段 ,更 是 科学 技术 的 必 备 基础 。 没 有 测量 ,就 不 会 有 数据 ; 离 
开 了 数据 ,任何 科学 技术 都 会 成 为 无 本 之 木 和 无 源 之 水 。 

(2) 计算 型 数据 : 数据 可 以 作为 测量 结果 直接 使 用 ,还 可 以 将 已 有 数据 通过 数据 处 理 
后 得 到 新 的 数据 ,这 是 数据 本 身 含 义 的 体现 ,也 是 人 们 使 用 数据 进程 中 的 一 个 重大 进步 , 因 
为 有 些 数据 根本 不 能 通过 直接 测量 获得 ,而 只 能 通过 对 已 有 数据 进行 计算 处 理 后 而 得 到 ,如 
到 太阳 的 距离 ( 约 1.5 亿 千 米 ) 和 太阳 内 部 的 温度 (2000 万 摄氏 度 ) 等 。 这 样 就 有 了 “原始 数 
据 ? 和 * 非 原始 数据 ?之 分 。 

(3) 记录 型 数据 : 测量 只 是 涉及 客观 世界 中 的 事物 ,是 数据 最 早 的 来 源 。 随 着 人 类 科 
学 文化 技术 的 向 前 发 展 , 记 录 极 大 地 扩展 了 人 类 社会 活动 的 深度 和 广度 ,为 了 丰富 社会 文化 
生活 和 保障 文明 传承 ,需要 通过 文字 、 图 形 图 像 音频、 视频 和 多 媒体 等 记录 人 们 自身 的 各 类 
活动 。 在 信息 时 代 , 这 些 记录 大 多 需要 借助 于 计算 机 系统 进行 存储 、 处 理 和 管理 ,都 需要 转 
化 为 计算 机 意义 下 的 数据 。 这 样 ,数据 就 有 了 “测量 “计算 处 理 ” 之 外 的 第 三 个 来 源 : 由 文 
本 文字 、 图 形 图 像 、 音 频 视 频 和 多 媒体 等 组 成 的 “记录 ”数据 。 

3. 从 数据 ,信息 和 知识 关系 上 考虑 

数据 与 信息 一 样 都 是 元 概念 ,难以 进行 严格 逻辑 意义 上 的 定义 。 但 从 计算 机 应 用 角度 
来 说 ,可 对 “数据 “信息 ”和 “知识 ”三 者 关系 进行 描述 ,这 种 描述 有 益 于 对 数据 概念 的 理解 和 
把 握 ,在 实际 应 用 中 也 是 行 之 有 效 的 。 

(1) 数据 : 通常 可 以 描述 为 事实 或 观察 的 结果 ,作为 对 客观 事物 或 其 特征 的 某 种 形式 
上 的 归纳 ,主要 用 作 未 经 加 工 的 原始 素材 。 数 据 的 一 个 基本 特征 是 在 使 用 时 需 置 于 具体 场 
景 之 中 表明 其 语义 。 例 如 “37” 这 个 数据 并 没有 表示 任何 意义 ( 即 语义 )。 但 将 它 置 于 人 体 
温度 语 境 中 ,就 表明 了 一 个 人 的 体温 是 37YC ; 而 将 其 置 于 人 的 年 岁 语 境 中 ,就 说 明 一 个 人 的 
年 龄 是 37 岁 等 。 也 就 是 说 ,数据 需要 解释 语义 ,不 能 解释 或 没有 语义 的 数据 就 没有 使 用 
价值 。 

(2) 信息 : 通常 可 以 看 作 是 具有 明确 语义 的 数据 或 数据 整合 体 ,信息 会 “明确 ”告知 人 
们 一 定 的 含义 ,但 不 能 保证 该 含义 是 否 合适 与 正确 。 





(3) 知识 : 通常 可 看 作 是 经 过 人 类 的 归纳 、 整 理 和 加 工 , 最 终 呈 现 某 种 规律 的 正确 性 
信息 。 
数据 .信息 和 知识 在 递 进 的 链条 上 可 以 看 作 : 在 内 涵 上 一 个 比 一 个 明确 有 力 ,在 表现 上 
一 个 比 一 个 丰富 多 彩 , 但 归根 结 底 ,数据 是 这 一 切 的 基础 。 

4. 计算 机 程序 和 数据 

经 过 多 年 的 探讨 和 实践 ,人 们 认识 到 计算 机 科学 与 技术 的 主体 是 其 中 的 软件 原理 研究 、 
方法 设计 与 技术 开发 。 对 于 计算 机 软件 而 言 ,程序 和 数据 是 两 个 最 重要 的 组 成 部 分 。 因 此 ， 
从 某 种 考量 出 发 可 以 认为 ,计算 机 软件 正 是 由 于 其 中 的 程序 和 数据 才 得 以 构成 了 真正 意义 
上 的 计算 机 运行 实体 。 

实际 上 ,对 于 计算 机 软件 来 说 ,程序 和 数据 通常 是 相互 关联 与 密切 整合 的 ,但 在 实际 应 
用 中 却 有 就 重 康 轻 和 谁 主 谁 次 的 考虑 。 为 了 讨论 此 项 问题 ,需要 先 从 不 同 角 度 对 计算 机 数 
据 进行 适当 的 分 类 。 

(1) 数值 型 数据 和 非 数值 型 数据 。 如 前 所 述 的 整数 、 实 数 等 基于 测量 和 计算 的 数据 就 
是 数值 型 数据 ,其 特点 是 可 以 通过 转化 为 二 进 制 数 而 “直接 "进入 到 计算 机 并 为 计算 机 程序 
所 处 理 。 主 要 用 于 记录 的 字符 ,图 形 图 像 、 声 频 视 频 及 多 媒体 等 数据 都 是 非 数 值 型 数据 ,其 
特点 是 需要 经 过 适当 的 编码 方 可 进入 计算 机 并 为 应 用 程序 所 处 理 。 如 今 , 非 数值 型 数据 已 
经 成 为 所 有 计算 机 数据 的 主体 组 成 。 

(2) 挥发 性 数据 和 持久 性 数据 。 从 是 否 长 期 驻 留 计算 机 来 看 ,可 以 将 数据 分 为 挥发 性 
(transient) 数 据 和 持久 性 (persistent) 数 据 。 显 然 ,存在 于 内 存 中 且 当 相应 程序 结束 就 被 * 析 
构 ” 的 数据 是 挥发 性 的 ,而 相应 程序 结束 后 会 被 “自动 ”建构 存储 在 外 存 中 的 数据 就 是 持久 
性 的 。 

(3) 私有 性 数据 和 共享 性 数据 。 从 是 否 为 多 个 程序 共享 同 用 来 看 ,可 以 将 数据 划分 为 
私有 性 (private) 数 据 和 共享 性 (share) 数 据 。 只 能 在 个 别 特定 程序 中 使 用 和 处 理 的 数据 是 
私有 性 数据 ,能 够 被 多 个 不 同 程序 共同 使 用 的 数据 则 是 共享 性 数据 。 显 然 ,使 用 同一 数据 的 
应 用 程序 越 多 ,相应 数据 的 共享 程度 就 越 高 。 

@ 在 直接 使 用 程序 设计 语言 解决 实际 问题 的 计算 机 应 用 过 程 中 ,程序 是 主体 ,数据 是 
从 属于 特定 应 用 程序 的 ,此 时 的 数据 多 是 数值 型 数据 ,通常 具有 挥发 性 和 私有 性 。 

@ 在 各 类 涉及 信息 存储 和 管理 的 软件 系统 中 ,数据 是 主体 ,程序 是 围绕 和 服从 于 相关 
数据 的 ,此 时 的 数据 大 多 是 非 数值 型 数据 ,通常 具有 持久 性 和 共享 性 。 

实际 上 ,根据 软件 系统 中 程序 是 主体 还 是 数据 是 主体 ,可 以 认为 各 类 众多 的 计算 机 应 用 
由 “数据 处 理 ” 和 “数据 管理 ”两 大 部 分 组 成 。 


1.1.2 数据 处 理 和 数据 管理 


计算 机 的 英文 为 ~computer”, 其 原始 含义 是 “计算 工匠 ”。 在 最 初时 期 ,计算 机 应 用 的 对 
象 是 “ 数 ”, 此 时 “数据 "就 是 “以 数字 形式 表现 出 来 的 客观 事物 的 特征 证 据 *"。 这 很 自然 ,因为 
任何 数字 都 可 以 “直接 ”转换 为 二 进 制 数 字 , 而 数字 计算 机 就 是 基于 二 进 制 数 字 的 存储 处 理 
装置 。 此 时 如 同 工 具 是 手 的 延伸 一 样 ,“computer”" 是 人 类 大 脑 “计数 ”智力 的 延伸 。ASCII 
码 标准 出 现 是 数字 处 理 技术 中 的 划时代 事件 , 它 使 得 起 源 于 数字 “运算 ”的 计算 机 技术 能 够 
应 用 到 字符 文本 的 处 理 。 从 此 ,就 有 了 “数值 型 "数据 和 “ 非 数 值 型 "数据 的 技术 之 分 。 人 类 
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思维 需要 借助 语言 来 实现 ,而 字符 就 是 语言 的 载体 ,计算 机 应 用 进入 由 文字 字符 为 代表 的 非 
数值 型 数据 领域 ,为 计算 机 具有 真正 意义 上 的 “人 脑 智能 ”提供 了 可 能 ,打开 了 计算 机 实现 真 
正 意义 上 的 人 脑 “延伸 ”通道 ,此 时 ,计算 机 才 可 以 名 副 其 实地 称 为 “电脑 ”。 

人 类 大 脑 的 功能 实际 可 以 分 为 两 个 方面 : 一 个 是 智慧 , 即 处 理 问 题 的 能 力 ; 另 一 个 是 
记忆 , 即 传承 知识 的 能 力 。 从 数据 角度 考虑 ,计算 机 作为 “电脑 ”, 其 智力 也 突出 表现 在 数据 
处 理 ( 即 数据 计算 ) 能 力 和 数据 管理 ( 即 数据 存储 (记忆 数据 ) 检 索 ( 记 忆 数 据 的 使 用 )) 能 
汶 上 于; 

1. 数据 处 理 

数据 处 理 的 操作 通常 可 以 看 作 是 通过 对 已 有 数据 进行 “计算 ”或 “运算 ”以 获取 新 的 有 用 
数据 。 这 些 运 算 可 以 是 加 减 乘除 等 算术 运算 和 "或 交 与 ?等 逻辑 运算 ,也 可 以 是 更 为 复杂 的 
计算 机 意义 上 的 算法 运算 ,如 排序 .查找 和 索引 等 。 这 方面 内 容 集中 体现 在 “数据 结构 与 算 
法 ”课程 当中 ,同时 也 普遍 分 布 在 计算 机 的 各 个 领域 与 技术 实现 当中 。 数 据 处 理 计算 具 有 下 
述 特点 。 

(1) 算法 复杂 性 。 算 法 内 容 复杂 深入 ,算法 设计 灵活 多 变 , 但 计算 涉及 的 应 用 范围 都 有 
相对 窄 小 的 边界 。 

(2) 基于 程序 设计 语言 。 通 常 都 需要 借助 某 一 种 高 级 程序 设计 语言 实现 相应 的 数据 
处 理 。 

(3) 数据 量 相对 较 小 。 计 算数 据 多 是 基于 键盘 输入 ,因此 计算 过 程 中 涉及 数据 量 相 对 
较 小 。 

(4) 数据 的 挥发 性 和 私有 性 。 数 据 没 有 长 时 间 存 留 和 大 范围 多 程序 共享 的 一 般 需 求 。 

2. 数据 管理 

数据 处 理 计 算是 计算 机 最 重要 的 应 用 之 一 ,可 以 看 作 是 一 种 “CPU 密集 型 "(CPU 
intensive) 应 用 , 另 一 类 更 为 广阔 的 被 称 为 “数据 密集 型 "(data intensive) 的 应 用 领域 就 是 数 
据 管理 。 数 据 管理 着 眼 于 数据 的 持久 存储 、 高 效 查 询 和 大 范围 共享 互 用 等 ,因此 具有 下 述 突 
出 特征 。 

(1) 数据 量 巨大 。 巨 大 的 数据 量 需 要 存储 在 外 存储 器 当中 ,在 计算 机 运行 过 程 中 内 存 
只 能 装载 其 中 很 小 的 一 部 分 数据 。 

(2) 数据 持久 性 。 与 数据 计算 处 理 不 同 , 管 理 过 程 中 涉及 的 数据 需要 长 期 驻 留 计算 机 
系统 。 

(3) 数据 共享 性 。 系 统管 理 的 数据 为 众多 应 用 程序 或 应 用 单位 等 大 范围 共享 。 

数据 管理 具体 涉及 数据 收集 整理 .组 织 存储 、 维 护 传 送 和 查询 检索 等 数据 操作 ,包括 管 
理 信息 系统 .办 公 室 自动 化 系统 .人 事 管 理 系 统 、 酒 店 预订 管理 系统 和 金融 信息 系统 等 方面 ， 
实际 上 已 经 形成 迄今 为 止 最 大 的 计算 机 应 用 系统 。 自 从 计算 机 由 主要 从 事 数值 型 数据 的 科 
学 计算 转变 到 从 事 更 为 广泛 的 非 数值 型 数据 应 用 以 来 ,数据 管理 就 已 在 计算 机 科学 技术 领 
域 占据 重要 的 核心 地 位 。 


1.1.3 数据 管理 和 数据 库 


现在 ,整个 计算 机 科学 技术 实际 上 几乎 都 以 非 数 值 型 数据 为 基本 应 用 对 象 ,而 其 中 非 数 
值 型 数据 管理 已 经 成 为 最 大 的 一 类 计算 机 应 用 领域 。 当 一 个 计算 机 软件 系统 具有 了 数据 共 


享 .数据 独 立 乃 至 最 重要 的 数据 模型 时 ,就 可 以 看 作 是 具有 数据 管理 系统 的 基本 特征 。 由 此 
通常 认为 , 自 计算 机 科学 技术 诞生 发 展 以 来 .数据 管理 技术 经 历 了 人 工 管理 (应 用 程序 管 
理 ) ,文件 系统 管理 (操作 系统 管理 ) 和 数据 库 管理 (专用 DBMS 管理 ) 三 段 历史 进程 。 

1. 人 工 管理 

人 工 管理 实际 上 就 是 人 们 通过 编写 应 用 程序 进行 数据 管理 ,其 基本 特点 是 一 组 数据 对 
应 一 个 特定 应 用 程序 , 当 多 个 不 同 程序 使 用 同一 数据 集 时 , 需 分 别 设计 数据 结构 ,无 法 自动 
关联 和 相互 参照 ,需要 人 工 进行 干预 处 置 , 因 此 也 称 为 基于 程序 的 数据 管理 。 由 此 会 导致 下 
述 问题 。 

(1) 数据 共享 性 不 足 。 同 一 数据 在 不 同 程序 中 需要 各 自 设计 逻辑 与 物理 结构 及 相应 存 
取 方 式 ,难以 进行 有 效 的 数据 共享 。 

(2) 管理 工作 重复 进行 。 数 据 使 用 过 程 中 出 现 大 量 宛 余 ,从 而 导致 需要 对 宛 余数 据 进 
行 重复 管理 ,共享 性 品质 较 差 。 

(3) 数据 独立 性 差 。 数 据 的 逻辑 结构 和 物理 结构 交 秋 影响 ,使 得 数据 与 程序 关系 密切 ， 
当 数 据 本 身 发 生 改变 时 ,相应 管理 程序 必须 改变 ,数据 缺乏 基本 的 独立 性 。 

基于 程序 的 数据 管理 主要 出 现在 20 世纪 50 年 代 中 期 之 前 ,当时 没有 磁盘 等 可 直接 存 
取 的 必要 设备 和 操作 系统 支持 等 技术 条 件 , 因 此 应 用 程序 ( 即 人 工 方式 ) 也 只 能 是 当时 对 数 
据 进行 管理 的 唯一 可 行 办 法 。 

人 工 管理 方式 如 图 1-1 所 示 。 

2. 文件 系统 管理 

基于 文件 的 数据 管理 主要 出 现在 20 世纪 50 年 代 末 期 到 20 世纪 60 年 代 中 期 ,实际 上 
就 是 使 用 操作 系统 中 专门 的 文件 系统 完成 相关 工作 。 文 件 系 统管 理 具 有 下 述 特 点 。 

(1) 数据 长 期 驻 留 。 计 算 机 磁盘 和 磁 鼓 等 提供 了 长 期 保存 数据 的 硬件 条 件 ,文件 系统 
提供 了 数据 在 外 部 存储 器 多 次 进行 查询 和 更 新 的 软件 环境 。 

(2) 一 定 程度 数据 独立 性 。 应 用 程序 与 数据 之 间 由 文件 系统 提供 的 存 取 方 法 进行 转 
换 , 数 据 与 程序 之 间 具 有 一 定 独立 性 。 

(3) 一 定 程度 的 数据 共享 性 。 数 据 按照 内 容 、 结 构 和 用 途 组 成 文件 ,而 文件 面向 应 用 ， 
可 以 为 一 组 使 用 同一 数据 的 应 用 程序 所 共同 使 用 。 但 当 不 同 应 用 只 具有 部 分 相同 数据 时 则 
需要 建立 不 同 的 数据 文件 ,此 时 又 回 到 了 程序 管理 的 情形 。 





































































































基于 文件 系统 的 数据 管理 如 图 1-2 所 示 。 

应 用 程序 数据 集合 
应 用 程序 数据 集合 

应 用 程序 上 |] 数据 集合 
应 用 程序 数据 集合 

: 文件 系统 : 

应 用 程序 数据 集合 应 用 程序 数据 集合 
图 1-1 应 用 程序 (人 工 ) 数 据 管理 图 1-2 基于 文件 系统 的 数据 管理 
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操作 系统 以 专门 的 文件 系统 软件 对 数据 进行 操作 ,提供 较 人 工 阶段 更 为 有 效 的 数据 管 
理 模 式 。 由 于 只 具有 部 分 的 数据 独立 性 ,文件 系统 中 数据 元 余 仍 然 较 大 ,数据 共享 性 也 不 够 
理想 。 随 着 对 数据 管理 性 能 要 求 的 提高 ,如 更 高 的 共享 性 、 更 好 的 独立 性 和 更 有 效 的 数据 查 
询 与 数据 更 新 等 实际 需求 ,推动 着 数据 管理 的 方法 和 技术 朝 新 的 方向 不 断 提升 和 突破 ,数据 
库 技术 应 运 而 生 。 

3. 数据 库 管理 

通过 应 用 程序 和 文件 系统 进行 数据 管理 的 实践 进程 ,人 们 逐步 认识 到 数据 的 有 效 管理 
实际 上 就 是 数据 的 结构 化 管理 ,这 是 因为 在 计算 机 系统 内 ,数据 和 文件 的 简单 堆积 将 缺乏 使 
用 价值 。 具 体 而 言 ,由 于 实际 应 用 中 的 数据 结构 复杂 、 数 据 量 巨大 ,简单 依靠 应 用 程序 乃至 
操作 系统 中 的 文件 系统 对 数据 进行 管理 使 用 存在 着 很 大 缺陷 ,需要 有 建立 在 操作 系统 之 上 
的 专门 软件 系统 ,这 就 是 以 统一 管理 和 共享 数据 为 设计 目标 的 数据 库 管理 系统 (Database 
Management System,DBMS) 。 

1) 数据 库 数据 管理 特征 

数据 库 系 统 出 现 于 20 世纪 60 年 代 末 直至 现在 仍 在 使 用 , 它 具 有 下 述 基 本 特征 。 

(1) 数据 共享 性 。 数 据 作为 整体 应 用 单位 的 共享 资源 由 DBMS 统一 管理 。 这 种 管理 
不 依赖 任何 个 别 应 用 程序 和 个 别 用 户 ,能 够 在 系统 级 别 上 确实 保证 和 真正 实现 数据 的 通用 
共享 。 

(2) 数据 独立 性 。 数 据 由 DBMS 统一 调配 使 用 ,用 户 与 数据 管理 在 真正 的 逻辑 和 技术 
层面 上 实现 了 数据 独立 。 由 于 其 独立 性 导致 数据 存储 和 组 织 等 细节 透明 ,从 而 使 得 用 户 可 
以 在 更 高 的 抽象 层面 上 审视 和 访问 数据 库 中 的 存储 数据 ,为 共享 性 提供 了 必需 的 技术 支撑 。 

(3) 数据 规范 性 。 统 一 管理 数据 之 后 ,系统 能 够 立足 于 全 局 结构 更 加 合理 地 组 织 和 更 
为 有 效 地 调配 数据 ,能 够 最 小 程度 地 减少 数据 元 余 , 更 合理 地 设计 和 实现 数据 的 标准 化 与 规 
范 性 ,从 而 更 加 有 利于 数据 的 转移 传输 和 更 大 范围 内 的 共用 共享 。 

(4) 管理 完备 性 。 由 于 面 对 整 个 应 用 单位 而 非 个 别 用 户 , 因 此 DBMS 能 够 研制 得 更 为 
复杂 庞大 ,从 而 具有 更 加 多 样 和 更 为 有 效 的 功能 。 事 实 上 , 现 有 DBMS 功能 已 经 不 仅仅 限 
于 一 般 的 数据 存储 和 查询 ,还 具有 查询 优化 数据 库 保护 (完整 性 与 安全 性 ) 和 事务 管理 (并 
发 控制 和 故障 恢复 ) 等 一 整套 完备 机 制 ,DBMS 已 经 成 为 在 层级 和 规模 上 都 不 逊 于 操作 系 
统 (OS) 和 办 公 自动 化 系统 (OA) 的 大 型 系统 软件 。 

数据 库 系统 管理 数据 情形 如 图 1-3 所 示 。 
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1-3 ”基于 数据 库 的 数据 管理 


数据 库 技术 是 计算 机 学 科 中 发 展 最 快 的 应 用 领域 之 一 ,也 是 应 用 广泛 的 计算 机 关键 技 
术 之 一 。 自 20 世纪 60 年 代 中 期 至 今 , 四 十 多 年 的 发 展 经 历 了 三 代 演 变 过 程 ,如 今 已 经 成 为 


以 数据 建 模 为 核心 概念 `. 以 数据 库 管理 系统 为 关键 技术 和 以 数据 库 系 统 为 各 类 信息 管理 系 
统 后 台 技 术 支撑 的 内 容 精深 和 应 用 广泛 的 计算 机 学 科 领 域 ,带动 了 DBMS 这 样 一 个 巨大 的 
计算 机 软件 产业 及 其 相关 产品 。 人 们 称 数据 库 系 统 在 整个 计算 机 发 展 进程 中 地 位 突出 也 许 
不 能 算 作 是 言 过 其 实 。 

2) 数据 库 管 理 系统 

如 上 所 述 ,数据 库 数据 管理 的 基本 特征 是 数据 的 集成 统一 管理 和 数据 的 有 效 共 享 同 用 ， 
需要 有 一 个 大 型 的 系统 软件 来 实现 其 基本 功能 ,这 就 是 数据 库 管 理 系统 CDBMS) 。 由 专门 
的 软件 系统 而 不 是 借助 于 操作 系统 中 内 嵌 的 文件 处 理 功能 管理 数据 是 数据 库 系统 与 其 他 任 
何 软件 系统 区 别 的 根本 性 标志 ,一般 数 据 管理 过 程 中 的 共享 性 ,独立 性 等 就 有 了 真正 技术 层 
面 的 基本 保障 。 

(1) 数据 独立 性 实现 。 在 DBMS 管理 之 下 ,众多 用 户 的 数据 库 应 用 程序 不 必 介入 数据 
文件 的 打开 关闭 . 读 / 写 和 存储 等 相对 低级 操作 ,也 就 是 说 可 以 脱离 数据 存储 读 / 写 及 其 技 
术 细 节 实 现 , 也 不 用 担心 被 DBMS 所 屏蔽 的 物理 层面 上 文件 结构 的 改动 ,可 以 在 更 高 的 抽 
象 层级 上 和 更 广泛 的 语义 范畴 内 组 织 观察 数据 并 提出 自身 操作 需求 。 

(2) 数据 共享 性 实现 。 通 过 DBMS 对 数据 的 统一 管理 ,用 户 可 以 从 全 局 的 理念 出 发 合 
理 组 织 数据 ,减少 数据 宛 余 , 在 真正 意义 上 实现 高 品质 的 数据 共享 ,这 是 由 于 如 果 不 能 对 数 
据 实 施 整 体 统一 的 观察 和 组 织 ,数据 就 会 出 现 交 秋 或 重复 ,经 过 数据 更 新 之 后 就 会 出 现 数 据 
不 一 致 的 情形 ,不 同 用 户 得 到 的 数据 信息 就 可 能 出 现 差 异 从 而 导致 共享 数据 丧失 应 有 的 作 
用 和 意义 。 此 问题 只 能 在 DBMS 框架 内 才能 得 到 有 效 解决 ,如 关系 数据 库 中 模式 设计 
课题 。 

(3) 基本 保障 功能 实现 。 数 据 管理 最 根本 的 应 用 目的 就 是 实现 数据 共享 也 就 是 多 用 户 
数据 查询 功能 。 在 实际 应 用 和 维护 过 程 中 ,还 需要 其 他 一 些 基本 机 制 子 以 保障 。 例 如 ,模式 
设计 机 制 以 保障 数据 共享 本 意 的 实现 ,共享 性 带 来 的 安全 性 机 制 以 保障 共享 性 带 来 的 数据 
享用 权限 ,故障 检测 恢复 机 制 以 保障 共享 性 带 来 的 系统 故障 多 发 性 ,并 发 机 制 以 解决 多 用 户 
并 发 访问 引发 的 语义 和 技术 上 的 各 类 问题 处 理 等 。 由 于 DBMS 不 是 只 为 个 别 应 用 程序 服 
务 ,作为 系统 软件 自然 就 可 以 综合 设计 整体 研发 出 能 够 实现 围绕 数据 共享 与 数据 独立 的 各 
类 相关 机 制 ,而 这 在 文件 系统 中 是 难以 企及 甚至 是 根本 无 法 实现 的 。 由 于 面向 整体 ,如 同 操 
作 系 统 那样 ,具体 技术 细节 向 用 户 透 明 , 对 于 DBMS 来 说 ,即使 相应 软件 系统 做 得 更 大 和 更 
复杂 ,用 户 也 都 是 可 以 接受 的 ,而 实际 情况 也 确实 如 此 。 

DBMS 是 基于 数据 库 管理 数据 的 核心 部 件 , 其 对 数据 库 管理 数据 机 制 和 功能 的 有 效 实 
现 有 着 决定 性 作用 。 通 常 一 种 DBMS 都 和 一 种 数据 库 语 言 相互 对 应 ,而 DBMS 最 重要 的 关 
键 点 就 是 合法 正确、 安全 和 有 效 地 执行 相应 的 数据 库 语言 。 例 如 ,关系 数据 库 管 理 系 统 
(RDBMS) 就 可 以 看 作 是 SQL 的 一 个 平台 实现 ,同时 还 可 以 按照 不 同 用 户 需 要 提供 诸如 交 
互 式 SQL 嵌入 式 SQL 和 动态 SQL 等 多 样 化 的 用 户 接口 。 


1.2 数据 库 技术 发 展 概 述 


数据 共享 性 是 数据 管理 的 基本 要 求 和 应 用 驱动 ,数据 独立 性 和 数据 集成 统一 管理 也 都 
有 基于 共享 性 的 考量 。 如 果 缺 乏 独立 性 ,所 存储 数据 的 逻辑 与 物理 结构 都 将 依赖 于 用 户 的 
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应 用 程序 ,而 由 于 用 户 需求 的 多 样 性 和 易 变 性 会 使 得 系统 变 得 极其 复杂 和 不 够 稳定 ,从 而 就 
难以 保障 共享 性 的 有 效 实现 。 此 外 ,共享 性 自然 需要 存储 保管 尽 可 能 多 的 相关 数据 ,而 这 大 
量 的 数据 不 能 简单 堆积 在 相关 存储 器 中 ,否则 相关 的 使 用 (如 查找 ) 就 非常 困难 ,或 者 根本 就 
不 可 能 完成 ,由 此 就 难以 实现 众多 不 同 用 户 对 存储 数据 的 共享 性 需求 ,因此 必须 对 所 涉及 数 
据 进行 集成 化 的 统一 管理 。 进 行 集成 化 统一 管理 的 基本 技术 途径 就 是 将 数据 按照 相互 间 的 
内 在 逻辑 关联 组 织 起 来 ,并 通过 适当 机 制 将 这 种 逻辑 结构 转化 为 在 机 器 上 实现 的 物理 结构 ， 
也 就 是 说 ,数据 的 集中 管理 本 质 上 就 是 需要 建立 起 数据 集合 上 的 数据 结构 。 有 了 项 层 框架 
层级 上 的 数据 结构 就 能 够 在 其 内 部 统一 定义 系统 技术 级 别 上 的 所 有 用 户 共用 的 数据 操作 ， 
以 及 保障 共享 顺利 实现 的 各 类 约束 条 件 , 这 就 是 人 们 所 熟知 的 由 数据 结构 .数据 操作 和 数据 
约束 构成 的 数据 管理 模型 或 称 数据 模型 。 在 一 定 意义 上 可 以 认为 ,以 数据 模型 为 支撑 而 实 
现 的 数据 管理 系统 就 是 数据 库 系统 。 因 此 ,人 们 通常 都 是 从 所 依据 的 数据 模型 出 发 ,对 数据 
库 技术 的 发 展 历程 进行 分 段 。 按 照 此 种 观点 ,数据 库 技术 的 发 展 经 历 了 第 一 代数 据 库 ( 层 次 
和 网 状 数据 库 ) 第 二 代数 据 库 ( 关 系数 据 库 ) 和 新 一 代 ( 或 第 三 代 ) 数 据 库 ( 以 对 象 数据 库 为 
代表 ) 等 3 个 发 展 阶段 。 


1.2.1 格式 化 数据 库 


第 一 代数 据 库 系统 包括 层次 和 网 状 数据 库 系 统 , 它 们 分 别 基于 层次 数据 模型 和 网 状 数 
据 模型 。 由 于 层次 数据 模型 对 应 于 树 形 结构 ,网 状 数据 模型 对 应 于 有 向 无 环 图 结构 ,具有 明 
确 的 格式 化 的 “数学 ”描述 ,所 以 也 统称 为 格式 化 数据 模型 ,相应 的 数据 库 称 为 格式 化 数 
据 库 。 

1. 层次 数据 库 

层次 数据 库 主 要 代表 是 美国 IBM 公司 于 1969 年 研制 成 功 的 世界 上 第 一 个 商品 化 
DBMS 产品 IMS(Information Management System)。 

层次 数据 库 采用 树 形 结构 表示 所 涉及 的 实体 型 及 相互 关系 (数据 结构 )。 其 中 结 点 表示 
一 个 实体 型 (记录 ) ,通常 每 个 结 点 都 由 多 个 数据 项 (字段 ) 组 成 ,如 图 1-4 所 示 。 
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1-4 层次 数据 的 树 形 结构 


作为 一 种 树 形 结构 ,层次 数据 库 能 够 进行 由 根 结 点 到 叶 结 点 的 单 向 查询 ,因此 适合 于 表 
示 和 访问 “一 对 多 ”的 数据 关联 ; 在 处 理 “ 多 对 多 ”联系 时 则 需要 进行 适当 转换 ,并 带 来 较 多 
的 数据 元 余 , 同 时 在 实现 数据 操作 过 程 当中 会 受到 较 多 的 限制 。 

2. 网 状 数据 库 

美国 CODASYL(Conference on Data Systems Languages) 协 会 下 属 DBTG (Data base 


Task Group) 于 1969 一 1970 年 对 数据 库 技术 进行 了 系统 研讨 ,提出 了 DBTG 报告 。 该 报告 
首次 确定 了 数据 库 系统 中 许多 基本 概念 、 方 法 和 技术 。 由 于 其 出 发 点 是 基于 网 状 数据 模型 ， 
通常 将 其 看 作 网 状 数据 库 设 计 的 代表 之 作 , 因 此 ,网 状 数据 模型 也 称 为 CODASYL 模型 或 
DBTG 模型 。 网 状 数据 库 的 原型 主要 有 以 下 两 类 。 

(1) 美国 通用 电气 公司 Bachman 等 于 1964 年 开发 的 IDS(Integrated Data Store) 系 统 ， 
它 葛 定 了 网 状 数据 库 系统 基础 ,也 是 世界 上 第 一 个 成 功 实现 的 DBMS。 

(2) 20 世纪 70 年 代 中 后 期 ,典型 网 状 数据 库 系统 有 Honeywell 公司 的 IDSII, HP 公司 
的 IMAGE 等 。 

网 状 数据 库 数 据 模型 基于 图 结构 ,图 中 每 个 结 点 表示 一 个 实体 型 记录 ,如 图 1-5 所 示 。 
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图 1-5 网 状 数据 的 图 结构 


网 状 数据 库 能 够 更 为 直接 地 描述 客观 世界 的 真实 情形 , 存 取 效 能 较 高 。 作 为 图 形 结构 ， 
数据 关联 表示 比较 复杂 ,使 用 不 够 方便 ,同时 数据 独立 性 也 不 尽 如 人意。 迄今 为 止 某 些 网 状 
数据 库 管理 系统 还 在 继续 使 用 当中 。 

3. 格式 化 数据 库 意义 

格式 化 数据 库 在 数据 库 发 展 史 上 曾经 发 挥 过 重要 作用 ,通常 认为 层次 数据 库 是 数据 库 
系统 的 历史 先驱 ,网 状 数据 库 则 奠定 了 近 现 代数 据 库 理论 与 技术 基础 。 格 式 化 数据 库 在 数 
据 库 发 展 进程 中 具有 下 述 基 本 意义 。 

(1) 支持 数据 库 三 级 模式 体系 结构 。 数 据 库 三 级 模式 体系 结构 在 整个 数据 库 技术 中 的 
地 位 类 似 于 冯 。 诺 依 曼 体系 结构 在 整个 计算 机 体系 结构 中 的 地 位 。 

(2) 通过 存 取 路 径 表达 数据 联系 。 厘 清 了 文件 系统 与 数据 库 系统 的 根本 界限 , 即 数 据 
库 系 统 在 存储 数据 本 身 的 同时 也 存储 数据 关系 。 

(3) 建立 独立 于 常规 编程 语言 的 数据 定义 语言 。 这 种 数据 库 语言 用 于 描述 和 表示 数据 
库 的 外 模式 、 模 式 和 内 模式 及 其 相互 映射 。 

(4) 导航 式 数据 操作 语言 。 格 式 化 数据 库 的 数据 查询 与 操纵 语言 具有 一 次 一 记录 的 过 
程 化 特征 ,可 以 嵌入 到 常用 的 高 级 程序 设计 语言 当中 。 


1.2.2 关系 数据 库 


关系 数据 库 系统 是 数据 库 发 展 历史 上 的 第 二 代数 据 库 系统 。 

1. 第 二 代数 据 库 

关系 数据 模型 是 由 IBM 公司 San Jose 研究 室 研究 员 E.F. Godd 于 1970 年 在 其 经 典 论 
文 “ 大 型 共享 数据 库 数 据 关系 模型 ”中 首次 提出 的 ,由 此 开辟 了 数据 库 关 系 技术 和 关系 数据 
理论 研究 的 基本 方向 ,为 关系 数据 库 莫 定 了 坚实 的 数学 基础 。1974 年 ,数据 库 界 开展 了 一 
场 分 别 以 E. F. Codd 和 C. W. Bachman 为 代表 的 支持 与 反对 关系 数据 库 大 辩论 。 辩 论 的 直 


一 典 


章 


EE 论 


高 级 数据 府 基 础 才 程 





接 后 果 促 进 了 关系 数据 库 的 迅猛 发 展 ,吸引 了 更 多 公司 和 研究 机 构 对 关系 数据 库 原型 进行 
研究 ,研究 成 果 成 批 出 现 。 

(1) 1976 年 ,IBM 公司 发 布 System R (1974 一 1980) ,美国 加 州 大 学 伯克利 分 校 发 布 
Ingres 关系 数据 库 系 统 。 在 当时 各 类 关系 数据 库 原型 中 ,这 两 个 系统 功能 较 强 ,技术 上 也 更 
具 代 表 性 ,它们 为 关系 数据 库 提供 了 比较 成 熟 的 技术 ,为 开发 商品 化 关系 数据 库 软件 创造 了 
有 利 条 件 。 

(2) 1979 年 ,美国 Oracle 公司 推出 了 用 于 VAX 小 型 机 上 的 关系 数据 库 软 件 Oracle 
(v2.0) ,这 被 认为 是 第 一 次 实现 了 使 用 SQL 语言 的 商品 化 关系 数据 库 软 件 。 

(3) 1981 年 ,Ingres 公司 推出 了 商品 化 的 Ingres 关系 数据 库 。 

(4) 1982 年 ,IBM 公司 在 System R 的 基础 上 推出 了 SQL/DS, 并 在 1985 年 又 推出 了 
DB2。 它 们 也 是 两 个 商品 化 关系 数据 库 系统 。 

由 于 关系 数据 库 原型 和 商业 化 系统 大 都 在 20 世纪 70 年 代 后 期 相继 推出 ,因此 ,通常 将 
20 世纪 七 八 十 年 代称 为 数据 库 时 代 。 实 际 上 ,到 了 21 世纪 的 今天 ,人 们 所 使 用 的 数据 库 系 
统 大 部 分 仍 是 关系 型 的 数据 库 系统 ,关系 数据 库 系统 迄今 在 数据 库 发 展 进程 中 依旧 辉煌 。 

关系 数据 模式 如 表 1-1 所 示 。 

表 1-1 关系 数据 模式 一 一 1NF 











学 号 姓名 年 龄 住址 邮箱 电话 
2. 关系 数据 库 意 义 


关系 数据 库 在 数据 库 发 展 进程 中 具有 里 程 碑 意义 。 

(1) 奠定 关系 数据 模型 理论 基础 。 使 得 数据 库 技术 从 此 建立 在 严格 的 数学 支撑 之 上 ， 
数据 库 学 科 从 应 用 技术 走向 了 科学 技术 。 

(2) 开发 数据 库 专 用 语言 。 基 于 关系 运算 (关系 代数 和 关系 演算 ) 的 关系 数据 库 语 言 
SQL 改变 了 格式 化 数据 语言 的 导航 查询 方式 ,以 联想 和 非 过 程 的 简洁 易学 风格 受到 广大 用 
户 欢 迎 , 为 数据 库 语言 标准 化 打下 基础 。 

(3) 解决 数据 库 实现 过 程 中 的 关键 技术 。 通 过 研制 大 量 关 系数 据 库 管理 系统 原型 , 提 
出 和 解决 了 查询 优化 、 事 务 管理 (并 发 控制 与 故障 恢复 ) 及 安全 性 等 系统 实现 过 程 中 的 一 系 
列 关 键 机 制 , 极 大 地 丰富 了 数据 库 理 论 和 技术 ,促进 了 数据 库 技 术 和 产品 的 蓬勃 发 展 和 广泛 
使 用 。 


1.2.3 新 一 代数 据 库 系统 


语法 和 语义 是 计算 机 理论 和 技术 广泛 涉及 并 需要 着 力 处 理 的 两 个 基本 方面 。 一 般 说 
来 ,语法 面向 机 器 ,语义 面向 应 用 。 关 系数 据 模型 可 以 用 于 描述 现实 世界 数据 某 些 逻辑 结构 
和 相互 关联 ,但 随 着 计算 机 应 用 领域 的 扩大 ,其 重 于 请 法 而 琉 于 捕 提 和 表达 数据 实体 具有 的 
丰富 而 重要 语义 的 局 限 也 日 益 显 现 出 来 。 自 20 世纪 80 年 代 末 以 来 ,出 现 了 以 对 象 数 据 库 
为 特色 的 新 一 代 ( 第 三 代 ) 数 据 库 系 统 。 





1. 对 象 数 据 库 

面向 对 象 设计 理念 可 以 看 作 是 基于 语义 模型 , 它 在 计算 机 的 各 个 应 用 领域 都 产生 了 重 
要 而 深远 的 影响 ,也 为 当时 不 断 遭 遇 挑 战 的 数据 库 技术 带 来 新 的 机 会 和 希望 。 

自 20 世纪 80 年 代 开始 ,人 们 就 开始 了 基于 对 象 的 数据 库 系统 研究 ,有 关 数 据 模型 和 数 
据 库 系统 的 研发 基本 上 沿 着 3 条 路 径 展 开 。 

(1) 面向 对 象 数据 库 。 以 面向 对 象 程序 设计 语言 为 基础 ,研究 持久 性 的 程序 设计 语言 
以 实现 对 象 支持 ,这 就 是 面向 对 象 数据 库 系统 。 

(2) 对 象 关 系数 据 库 。 以 关系 数据 库 和 SQL 为 基础 扩展 关系 模型 以 实现 对 象 支持 ,这 
就 是 对 象 关 系数 据 库 系统 。 

(3) 纯 对 象 数据 库 。 建 立 完全 不 依赖 于 现 有 技术 方法 的 面向 对 象 数据 库 系 统 , 由 于 各 
种 原因 ,迄今 还 没有 系统 原型 实现 。 

表 1-2 和 图 1-6 所 示 分 别 为 对 象 关系 数据 模式 和 面向 对 象 数据 模式 。 


表 1-2 对 象 关 系数 据 模式 一 一 非 INF 












































联系 方式 
学 号 姓名 年 龄 住址 
邮箱 电话 微 信 
雇员 class 一 一 一 | 地 址 class 
雇员 ID varchar 省 份 varchar 
姓名 varchar 城市 varchar 
属性 性 别 char 街道 char 
地 址 编号 ”address 邮编 number 
| 返回 邮编 GetZip0 
方法 返回 姓名 GetName() 
返回 地 址 GetAddr() 一 -J 











图 1-6 面向 对 象 数 据 模式 


2. 对 象 数据 库 特征 

人 们 原先 期 望 对 象 系统 能 够 像 关系 系统 取代 格式 化 系统 那样 取代 关系 系统 ,从 而 使 得 
对 象 数据 库 系统 成 为 第 三 代数 据 库 的 “天 下 共 主 ”, 然 而 历史 却 没 有 能 够 重演 。 在 这 种 情形 
下 ,人 们 对 什么 是 第 三 代数 据 库 系统 实际 上 并 未 达成 普遍 共识 , 即 还 不 存在 一 个 公认 的 第 三 
代数 据 模型 。1990 年 ,高 级 DBMS 功能 委员 会 发 表 了 《第 三 代数 据 库 系统 宣言 》, 提 出 第 三 
代 DBMS 应 具有 如 下 基本 特征 。 

(1) 支持 数据 .对象 和 知识 统一 管理 。 第 三 代 DBMS 需要 支持 更 加 丰富 的 对 象 结 构 和 
规则 管理 ,应 当 将 数据 管理 对象 管 理 和 知识 管理 整合 为 一 体 。 

(2) 保持 或 继承 第 二 代数 据 库 原 有 技术 。 第 三 代 DBMS 需要 保持 关系 数据 库 现 有 技 
术 ( 非 过 程 化 .数据 独立 性 和 事务 管理 等 ) ,不 但 具有 良好 的 对 象 管理 和 规则 管理 ,还 能 更 好 
地 支持 原 有 管理 与 多 数 用 户 需 要 的 即时 查询 等 。 
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(3) 对 其 他 系统 保持 开放 。 第 三 代 DBMS 需要 对 其 他 系统 保持 开放 , 即 支持 数据 库 语 
言 标准 、 支 持 网 络 协议 ,具有 良好 移植 性 、 可 连接 性 、 可 扩展 性 和 互 操作 性 等 。 

尽管 人 们 在 第 三 代数 据 库 上 还 没有 达成 基本 共识 ,但 对 象 系统 的 出 现 和 发 展 却 导 致 众 
多 不 同 于 前 两 代 的 重要 系统 诞生 ,从 而 构成 了 当今 蓬勃 兴旺 的 数据 库 大 家 族 。 这 也 是 对 象 
系统 应 有 的 历史 功绩 ,也 正 是 由 于 在 第 三 代数 据 库 定位 上 没有 取得 一 致 认识 ,业内 通常 也 将 
有 别 于 格式 化 和 关系 数据 库 的 各 类 新 型 数据 库 系 统 都 统称 为 新 一 代数 据 库 系统 。 当 今 实 在 
难以 使 用 一 种 数据 模型 去 统领 广泛 而 深入 的 数据 库 应 用 领域 ,因为 新 一 代数 据 库 不 像 前 两 
代数 据 库 系统 那样 具有 统一 的 标准 数据 模型 。 当 前 ,根据 不 同 应 用 需求 ,人 们 关注 的 数据 模 
型 主要 有 面向 对 象 数据 模型 .对象 关系 数据 模型 半 结 构 化 数据 模型 和 XML 数据 模型 及 移 
动 对 象 数据 模型 等 。 通 过 这 些 数据 模型 ,结合 各 种 计算 机 应 用 新 技术 ,根据 新 的 数据 处 理 需 
求 ,出 现 了 真正 意义 上 的 蓬勃 旺盛 欣欣向荣 的 数据 库 大 家 族 。 基 于 树 形 模 型 的 XML 数据 
模式 如 图 1-7 所 示 。 
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1-7 ”基于 树 形 模型 的 XML 数据 模式 


1.3 发 展 特征 与 驱动 要 素 


数据 库 技术 是 几乎 所 有 计算 机 应 用 技术 发 展 和 应 用 的 基本 保障 之 一 , 反 过 来 ,顺利 解决 
计算 机 应 用 领域 中 提出 的 各 种 数据 管理 新 的 重大 课题 又 会 极 大 地 深化 扩展 数据 库 应 用 领 
域 ,为 数据 库 技术 注入 新 的 更 强 活力 。 


1.3.1 数据 库 技术 发 展 将 征 


数据 库 技术 发 展 特征 主要 表现 在 下 述 3 个 方面 。 

1. 数据 模型 研究 深入 

数据 模型 是 数据 库 技术 的 核心 与 基础 。 例 如 ,关系 数据 模型 的 提出 既 表 现 出 数据 库 理 
论 的 巨大 突破 和 飞跃 ,又 体现 出 理论 研究 成 果 到 实用 化 技术 的 出 色 转 换 , 还 带 来 了 数据 管理 
关键 技术 的 有 效 攻克 和 商业 化 产品 的 巨大 成 功 。 面 对 广泛 的 数据 管理 需求 和 受到 关系 模型 
成 功 的 鼓舞 ,随后 人 们 又 陆续 研究 和 提出 了 各 种 新 的 数据 模型 ,从 而 使 数据 模型 成 为 整个 数 


据 库 新 技术 发 展 的 最 重要 特征 。 

(1) 后 关系 数据 模型 。 关 系 模型 的 关系 范式 1NF 限制 了 关系 数据 库 系 统 在 新 应 用 领 
域 中 的 功能 发 挥 ,针对 这 种 情形 ,通过 引入 适当 的 数据 类 型 构造 器 ,增强 其 结构 建 模 能 力 ,使 
得 经 过 扩展 后 的 模型 能 够 表达 比较 复杂 的 数据 类 型 。 这 里 存在 以 下 两 种 扩充 思路 。 

基于 结构 扩充 : 这 种 扩充 得 到 的 扩展 模型 称 为 说 套 关系 模型 (NF2) ,可 以 表示 “ 表 中 
有 表 ” 的 情形 ,并 且 表 中 一 个 域 可 以 是 一 个 函数 ( 虚 域 )。 

@ 基于 语义 扩充 : 这 种 扩充 既 支 持 关系 间 的 继承 关系 ,也 支持 在 关系 上 定义 函数 和 运 
算 , 但 关系 结构 仍 是 平面 表 , 如 美国 加 州 大 学 伯克利 分 校 的 Postgers 系统 。 

上 述 扩充 中 ,数据 表示 的 基础 与 核心 仍然 是 “关系 表 ”, 因 此 也 称 其 为 后 关系 模型 。 

(2) 面向 对 象 数 据 模 型 。 使 用 对 象 理念 和 方法 来 描述 现实 客观 实体 的 逻辑 组 织 、 数 据 
约束 、 相 互联 系 等 。 面 向 对 象 的 一 系列 核心 概念 与 方法 通过 适当 解释 就 构成 了 面向 对 象 数 
据 模型 基础 。 面 向 对 象 数据 模型 具有 丰富 的 语义 表示 和 对 象 间 多 种 相互 联系 ,同时 支持 层 
次 结构 和 多 态 重 用 。 

(3) 对 象 关 系数 据 模 型 。 关 系 模型 与 对 象 基 本 原理 与 方法 的 适当 整合 ,主要 是 在 关系 
基础 上 扩充 了 对 象 模型 的 某 些 功能 。 基 于 对 象 关 系 模型 的 数据 库 系统 既 满 足 了 传统 应 用 的 
要 求 , 又 能 适应 大 多 数 复杂 数据 处 理 , 得 到 数据 库 大 厂商 支持 。 当 前 大 型 商用 数据 库 系统 大 
多 具有 对 象 关系 的 处 理 功能 。SQL3 相对 于 以 前 SQL 的 最 大 扩展 就 是 增加 了 面向 对 象 数 
据 类 型 ,其 中 最 重要 的 就 是 结构 类 型 ( 行 类 型 ) 和 抽象 数据 类 型 。 

(4) XML 数据 模型 。XML 数据 是 自 描述 和 不 规则 的 ,可 以 通过 适当 的 图 模型 进行 表 
述 。 通 常 图 中 的 边 标记 为 元 素 的 标识 名 ,内 部 结 点 为 属性 - 值 对 应 集合 , 叶 结 点 为 元 素 文 本 
内 容 。 为 减低 表示 复杂 度 ,通常 每 个 结 点 都 有 一 个 对 象 标识 符 。 另 外 ,XML 图 模型 需要 有 
一 个 根 结 点 。 

(5) 半 结 构 数 据 模 型 。 半 结构 化 数据 存在 着 一 定 结构 ,只 不 过 这 种 结构 具有 以 下 特点 。 

@ 描述 结构 的 元 语言 与 描述 数据 的 数据 语言 相同 。 

@ 结构 随时 间 动 态 变化 。 

@ 结构 复杂 不 能 纳入 传统 框架 。 

XML 数据 属于 半 结 构 化 数据 范畴 。 当 前 半 结 构 数 据 模型 有 基于 逻辑 和 基于 图 的 两 种 形式 。 

基于 逻辑 方式 : 通过 描述 逻辑 和 Datalog 规则 表示 数据 模型 。 

基于 图 方式 : 通过 OEM 模型 表示 ,用 于 从 半 结 构 化 网 页 中 提取 信息 。 

(6) 移动 对 象 数据 模型 。 从 逻辑 上 可 以 看 作 是 属于 时 空 数 据 模型 范畴 ,但 由 于 自身 特 
性 ,实际 上 已 经 形成 了 独特 的 研究 方向 与 技术 领域 。 

中 通常 以 移动 点 对 象 为 主要 研究 数据 对 象 ,重点 关注 于 移动 对 象 的 位 置 数据 信息 。 

@ 来 自 位 置 数据 信息 服务 的 应 用 驱动 .数据 模型 不 仅 能 够 表示 “过 去 "语义 的 数据 ,还 
需要 描述 “当前 ”和 “未 来 "一段 时 间 内 的 数据 信息 。 

@ 由 于 在 时 间 域 上 的 “全 方位 "要求, 以 及 对 “实时 性 ”和 “预测 性 ”的 特殊 需求 ,相应 存 
储 和 管理 “当前 ”和 “未 来 ”技术 与 传统 方法 有 着 明显 区 别 ,存在 着 重大 创新 。 

2. 与 计算 机 新 技术 融合 

数据 库 技术 发 展 的 一 个 显著 特征 是 数据 库 与 计算 机 新 技术 紧密 结合 。 随 着 计算 机 各 种 
新 技术 相继 涌现 与 不 断 发 展 ,提出 了 各 种 各 样 新 的 需要 处 理 的 数据 形式 ,由 此 形成 了 数据 库 
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领域 许多 新 鲜 分 支 和 研究 课题 ,丰富 和 发 展 了 各 种 新 型 数据 库 技术 。 数 据 模型 与 计算 机 应 
用 技术 结合 情况 如 图 1-8 所 示 。 


应 用 技术 
这 县 服务 一 一 一 一 一 一 i 移动 对 象 数据 库 
! NoSQL 数 据 库 
| ee ( 非 结构 数据 ; 
A 后 1 75%~85%) 
1 下 
We | Web 数据 麻 ” ”1XML 数 据 库 
| 
移动 技术 | ------ 1 。 移动 数据 库 | | 
,| 1 1 
多 媒体 | 一 1 多 媒人 数据 库 | | 
1 1 1 
人 工 智能 上 | ------ ! 知识 库 | | 
1 1 
并 行 处 理 上 一 ----- | 并 行政 拓 库 | | 
1 1 1 
分 布 处 理 上 一 -一 - ! 分 布 式 数据 库 | | 
1 1 
| 一 一 一 一 数据 模 卉 








格式 关系 ”OR OO 半 结 构 非 结构 
图 1-8 数据 模型 与 计算 机 应 用 技术 结合 


3. 面向 新 型 应 用 领域 

与 应 对 各 类 应 用 技术 提出 新 的 数据 类 型 需求 处 理 不 同 , 许 多 特定 的 计算 机 应 用 领域 ,或 
者 需要 综合 应 用 多 种 数据 库 技术 ,或 者 需要 对 大 量 本 身 己 有 数据 集合 进行 新 视角 审视 与 处 
理 ,从 而 使 得 数据 库 技术 应 用 范围 不 断 扩 大 ,新 型 数据 库 系 统 不 断 涌现 。 数 据 模型 与 数据 处 
理 新 需求 结合 情况 如 图 1-9 所 示 。 








数据 处 理 新 需求 
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物 联 网 云 计算 | 一 -一 一- 一- 一- 一 -一 一- 一 一 -大 数据 管理 

1 1 
3 | 1 
时 空 数据 处 TS | 
人 | 
1 1 1 1 1 
时 态 数据 处 理 广 a 1 | | 
i 1 
生生 1 | 
1 1 1 1 1 
联机 分 析 处 理 | -一 一- 数据库 1 1 | 
1 1 1 1 1 
联机 事务 处 理 | ------ 1 
省 尖酸 一 
1 1 1 1 





! ! = 数据 模型 
格式 ”关系 ”OR ”00 半 结 构 无 结构 


图 1-9 数据 模型 与 数据 处 理 新 需求 结合 





1.3.2 数据 库 发 展 驱 动 要 素 


与 一 般 客观 事物 相同 ,数据 库 技术 的 发 展 需 要 相应 的 条 件 和 环境 ,这 种 条 件 和 环境 可 以 
归结 为 数据 自身 、 应 用 需求 和 硬件 技术 3 个 基本 要 素 。 

1. 数据 自身 变化 

数据 自身 变化 来 源 于 计算 机 新 应 用 领域 产生 的 新 型 数据 源 。 网 络 .科学 研究 .数字 图 书 
馆 、 电 子 商 务 和 社交 活动 等 已 经 成 为 数据 和 信息 处 理 需求 的 重要 数据 源 , 其 中 的 新 型 数据 相 
对 于 传统 情形 发 生 了 很 大 变化 。 

(1) 数据 类 型 众多 。 数 据 库 管理 的 基本 数据 对 象 长 期 以 来 主要 是 数字 类 型 和 字符 类 
型 。 现 在 大 量 新 型 数据 类 型 不 断 涌现 ,如 图 形 图 像 数 据 、 动 画 数 据 、 音 频 视频 数据 、 社 交 文 本 
和 多 媒体 数据 、 数 据 仓 库 中 的 多 维 数据 、 网 络 上 的 HTML 和 XML 数据 、 时 间 序 列 数 据 、 流 
数据 和 过 程 或 行为 数据 等 。 

(2) 数据 结构 复杂 。 上 述 新 型 数据 类 型 通常 或 者 具有 复杂 数据 结构 ,或 者 呈现 半 结 构 
或 无 结构 特征 ,或 者 存在 结构 但 难以 进行 技术 上 的 清晰 描述 。 这 种 基于 复杂 数据 结构 建 模 
比 常规 情形 具有 更 大 的 挑战 性 ,相应 的 数据 操作 、 存 储 策略 、 存 取 方 法 和 服务 质量 保障 也 相 
当 复杂 、 困 难 。 

(3) 海量 数据 出 现 。 当 今 可 以 获取 的 数据 量 正在 以 TB(Teta Bytes,1024GB) 和 PB 
(Peta Bytes,1024TB) 数 量 级 增长 。 实 际 上 ,图 灵 奖 获得 者 J. Gray 早 在 1999 年 就 预测 “从 
现在 起 ,每 18 个 月 全 球 新 增 信息 量 等 于 计算 机 有 史 以 来 存储 量 之 和 ”。 

海量 数据 主要 来 源 于 科学 研究 、 物 联网 、 电 子 商务 和 人 们 的 文化 社交 活动 。 科 学 研究 需 
要 处 理 的 数据 量 如 表 1-3 所 示 。 


表 1-3 当今 科学 研究 前 沿 中 需要 处 理 的 数据 量 















































应 用 领域 应 用 方向 运算 性 能 需求 存储 容量 需求 
蛋白 质 电子 态 计 算 100Tfkoats 30TB 
生物 医学 药物 发 明 中 筛选 800Tfkoats 200TB 
蛋白 质 折合 1Pfkoats 1PB 
航空 航天 制造 发 动机 燃烧 模拟 和 机 可 设计 模拟 500Tfkoats 100PB 
短期 天 气 预报 20Tfkoats 10PB 
气候 环境 长 期 天 气 预报 200Tfkoats 100PB 
局 部 突 发 性 灾难 预报 1Pfkoats 500PB 
完全 等 离子 分 析 ( 电 子 结构 分 析 ) 500Tfkoats 1PB 
核能 技术 核武 器 数值 模拟 1Pfkoats 1PB 
天 然 气 燃 烧 1Pfkoats 1PB 
符合 材料 结构 分 析 与 动能 测试 200Tfkoats 400TB 
人 新 材料 发 明 1Pfkoats 2PB 
密码 破译 1Pfkoats 1PB 
人 先进 武器 模拟 1Pfkoats 1PB 
天 体 物理 学 超新星 三 维 模拟 1Pfkoats 1PB 











电子 商务 和 社交 活动 近年 来 由 于 无 线 通信 终端 设备 的 普及 已 经 成 为 海量 数据 的 主要 贡 
献 者 。 淘 宝 拥有 4. 4 亿 注册 用 户 、8 亿 多 商品 条 目 ,每 分 钟 销售 4. 8 万 件 商品 ,高 峰 日 成 交 
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额 达到 52 亿 元 ,庞大 的 用 户 流 、 信 息 流 和 资金 流 , 使 淘宝 积累 起 20PB 规模 以 上 的 数据 。 
Google 每 天 约 有 200 亿 个 网 页 搜索 ; 2014 年 巴西 世界 杯 中 ,现场 超过 570 个 视频 传输 设 
备 ,每 天 有 超过 10 万 个 无 线 设备 观看 比赛 ,累计 超过 10 亿 人 次 通过 互联 网 或 无 线 移动 设备 
观看 全 部 64 场 比赛 ,一 场 比赛 收集 6000 万 条 需要 存储 的 相关 记录 等 。 据 统计 ,世界 每 年 产 
生 的 数据 92% 存 储 在 计算 机 磁盘 和 光 介 质 当 中 ,7% 存 储 在 胶片 上 ,传统 纸 质 印刷 信息 只 占 
0.01% 左 右 。 量 的 变化 终究 会 导致 质 的 改变 ,如 何 管理 这 些 海量 数据 是 数据 库 技术 面临 的 
新 挑战 。 

数据 自身 的 巨大 变化 为 数据 管理 领域 带 来 一 系列 挑战 性 课题 。 例 如 ,是 扩充 传统 
DBMS 功能 ,还 是 重新 考虑 其 基本 架构 。 又 如 ,对 这 些 结构 化 、 半 结构 化 和 非 结 构 化 数据 的 
混 装 体 如 何 进行 数据 建 模 ,数据 存 取 和 智能 抽取 等 。 这 些 问题 涉及 众多 领域 ,更 需要 将 数据 
库 技术 研究 发 展 与 计算 机 最 新 领域 学 科 交 又 融合 ,其 中 形成 了 以 大 数据 为 基本 特征 的 新 的 
数据 管理 研究 与 应 用 领域 一 一 数据 科学 。 

2. 应 用 需求 变化 

当今 ,数据库 应 用 领域 呈现 出 多 元 化 的 明显 特点 。 随 着 无 处 不 在 的 数据 管理 需求 ,相应 
数据 库 的 应 用 也 无 处 不 在 ,数据 库 系 统 已 经 成 为 计算 机 应 用 系统 的 核心 与 基础 。 

(1) 网 络 强劲 推动 。20 世纪 90 年 代 以 来 , Internet 已 经 成 为 最 主要 的 应 用 领域 ,这 个 
全 新 领域 向 数据 库 提出 了 前 所 未 有 的 应 用 需求 ,电子 商务 和 电子 政务 、 信 息 服务 和 云 计算 、 
社交 网 络 和 智慧 城市 等 新 型 数据 库 应 用 需求 应 运 而 生 。 例 如 ,传统 事务 处 理 方式 已 经 发 生 
了 重大 变化 ,从 企业 或 部 门 内 部 处 理 到 以 网 络 和 Internet 为 基础 , 跨 部 门 跨行 业 甚 至 全 社会 
的 开放 处 理 ,由 此 提出 了 对 数据 库 信息 安全 和 信息 集成 新 的 保障 和 支持 需求 。 

(2) 科研 提供 需求 。 生 物 学 、 天 文学 、 地 理科 学 、 保 健 科学 和 工程 领域 等 科学 技术 研究 
领域 产生 大 量 复杂 结构 数据 ,这 些 数据 的 管理 需要 比 当 前 数据 库 技 术 和 产品 所 能 提供 的 支 
持 更 为 高 级 。 同 时 也 需要 信息 集成 机 制 ,对 分 析 过 程 中 的 中 间 数 据 进 行 管理 ,需要 和 全 球 范 
围 内 的 数据 网 格 进行 交互 和 集成 。 

(3) 应 用 环境 开放 。 现 在 ,数据 库 不 再 局 限于 一 个 机 构 内 部 的 事务 逻辑 管理 ,而 是 处 在 
一 个 面向 开放 具有 更 多 需求 的 多 元 应 用 环境 。 分 布 自治 的 计算 环境 、 移 动 设备 的 动态 管理 、 
实时 处 理 和 隐私 保护 等 已 经 称 为 数据 库 重 要 的 研究 科目 。 开 放 式 环境 将 促使 数据 库 技术 研 
究 与 开发 的 不 断 深 入 与 发 展 。 

新 的 计算 机 应 用 对 于 数据 管理 新 的 要 求 与 挑战 如 表 1-4 所 示 。 

表 1-4 新 的 应 用 领域 对 数据 处 理 提出 新 的 需求 
































应 用 领域 应 用 方向 运算 性 能 需求 存储 容量 需求 

蛋白 质 电子 态 计 算 100Tfkoats 30TB 

生物 医学 药物 发 明 中 筛选 800Tfkoats 200TB 
蛋白 质 折 又 1Pfkoats 1PB 

航空 航天 制造 发 动机 燃烧 模拟 和 机 姻 设计 模拟 500Tfkoats 100PB 
短期 天 气 预 报 20Tfkoats 10PB 

气候 环境 长 期 天 气 预 报 200Tfkoats 100PB 
局 部 突 发 性 灾难 预报 1Pfkoats 500PB 
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应 用 领域 应 用 方向 运算 性 能 需求 存储 容量 需求 

完全 等 离子 分 析 ( 电 子 结构 分 析 ) 500Tfkoats 1PB 
核能 技术 核武 器 数值 模拟 1Pfkoats 1PB 
天 然 气 燃烧 1Pfkoats 1PB 

符合 材料 结构 分 析 与 动能 测试 200Tfkoats 400TB 
和 新 材料 发 明 1Pfkoats 2PB 
i 密码 破译 1Pfkoats 1PB 
先进 武器 模拟 1Pfkoats 1PB 
天 体 物理 学 超新星 三 维 模拟 1Pfkoats 1PB 

3. 硬件 技术 变化 


计算 机 硬件 和 相关 技术 成 熟 是 数据 库 技术 发 展 的 男 一 动力 。 

1965 年 ,英特尔 的 创始 人 之 一 戈 登 。 摩 尔 (Gordon Moore) 在 考察 计算 机 硬件 的 发 展 过 
程 之 后 提出 了 摩尔 定律 : 同一 面积 芯片 上 可 容纳 的 晶体 管 数量 1 一 2 年 将 增加 1 倍 。 而 实 
际 情况 竟然 与 摩尔 的 预 估 惊 人 地 相符 。 据 统计 ,在 1971 一 2011 年 的 40 年 间 , 大 概 每 两 年 相 
同 面积 的 中 央 处 理 器 集成 电路 上 的 晶体 管 数量 就 增加 1 倍 。 在 2014 年 ,英特尔 公司 宣布 成 
功 开发 出 14nm 的 3D( 三 维 ) 晶 体 管 ,由 此 大 部 分 科学 家 相信 ,摩尔 定律 的 生命 将 会 一 直 延 
续 到 2020 年 。 

摩尔 定律 带 给 人 们 的 最 大 收益 是 计算 机 硬件 价格 的 快速 下 降 。 与 常理 相悖 的 是 ,单位 
面积 上 晶体 管 数量 的 增加 不 仅 没 有 引起 集成 电路 价格 的 上 涨 ,反而 导致 了 快速 下 降 , 究 其 缘 
由 是 由 于 晶体 管 做 得 愈 小 其 成 本 就 愈 低 ,同时 相关 设备 的 实际 用 户 量 也 在 成 倍增 加 。 

早 在 2009 年 ,世界 晶体 管 的 产量 就 达到 了 世界 大 米 颗 粒 数量 的 250 倍 ,由 此 导致 1 粒 
大 米 的 价钱 可 以 购买 10 万 个 晶体 管 。1TB 容量 硬盘 价格 也 在 持续 下 降 ,2012 年 其 价格 为 
94. 99 美元 ,2014 年 降 至 49. 99 美元 ,预计 到 2020 年 ,1TB 容量 硬盘 的 价格 将 降 为 3 美元 ， 
这 只 相当 于 一 杯 咖 啡 的 价格 。 从 数据 库 管 理 技术 发 展 的 不 同 阶段 可 以 看 出 ,不 同 的 硬件 环 
境 只 能 产生 和 实现 相应 水 平 的 软件 技术 。 如 同 所 有 计算 机 应 用 情形 ,数据 库 技 术 也 依赖 于 
硬件 设备 的 发 展 ,特别 是 处 理 器 速度 和 存储 器 容量 及 其 相应 成 本 。 计 算 机 超级 计算 能 力 的 
提升 和 巨 量 存储 设备 的 完善 ,为 有 效 管理 各 类 新 型 数据 库 提供 了 必需 的 技术 支撑 和 发 展 的 
广阔 空间 。 同 时 ,计算 机 硬件 的 飞速 发 展 正在 改变 着 数据 库 技术 中 的 已 有 规则 ,要 求人 们 对 
传统 数据 库 中 的 存储 机 制 和 查询 方式 重新 予以 评估 ,在 新 的 计算 机 体系 结构 框架 内 重新 设 
计 相 应 的 数据 结构 和 基本 算法 。 


1.4 数据 库 技 术 的 地 位 和 意义 


世界 上 第 一 台 真 正 意义 上 的 电子 计算 机 在 1946 年 诞生 于 美国 宾夕法尼亚 大 学 的 摩尔 
学 院 , 正 式 名 称 为 Electronic Numerical Integrator and Computer, 简 称 ENIAC。ENIAC 当 
时 主要 用 于 弹道 计算 、 火 力 表 测 试 及 科学 研究 。 随 着 计算 机 理论 研究 的 深入 和 计算 机 技术 
应 用 的 发 展 , 从 20 世纪 50 年 代 开 始 ,计算 机 应 用 就 开始 由 军事 和 科学 研究 领域 逐渐 扩展 到 
行政 部 门 和 企 事业 单位 。 这 种 扩展 的 重要 标志 就 是 计算 机 主要 应 用 范围 由 特定 的 面向 数值 
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型 数据 的 科学 计算 转变 到 一 般 的 面向 非 数值 型 数据 的 数据 管理 和 事务 处 理 。 伴 随 着 这 种 转 
变 的 逐步 推进 ,以 数据 统一 管理 为 核心 的 数据 库 技 术 随 之 发 展 与 成 熟 起 来 ,成 为 计算 机 科学 
技术 与 应 用 中 最 为 广泛 和 最 为 重要 的 领域 之 一 。 

数据 库 系统 的 出 现 是 计算 机 理论 和 应 用 发 展 史上 的 里 程 碑 之 一 ,也 是 计算 机 应 用 领域 
从 科学 计算 发 展 到 事务 与 非 事 务 处 理 历史 性 转变 的 基本 标志 之 一 。 从 计算 机 应 用 角度 来 
说 , 正 是 由 于 这 种 转变 , 才 使 得 计算 机 技术 和 应 用 得 以 深入 各 行 各 业 和 走 进 千家 万 户 中 发 挥 
了 重大 作用 ; 从 逻辑 上 来 看 ,在 这 个 转变 进程 当中 ,数据库 原理 的 深入 研究 和 数据 库 技术 的 
广泛 应 用 有 力 地 表明 了 计算 机 学 科 不 仅仅 只 属于 应 用 工程 范围 ,也 具有 科学 技术 的 内 秉 特 
质 。 数 据 库 技术 作为 计算 机 领域 的 基本 学 科 , 已 经 成 为 整个 计算 机 信息 系统 与 应 用 领域 的 
核心 技术 和 重要 基础 之 一 ,有 着 明显 的 学 科 地 位 和 意义 。 


1.4.1 计算 机 领域 中 的 学 科 地 位 


数据 库 技术 是 计算 机 领域 的 重要 技术 之 一 ,也 是 计算 机 软件 学 科 的 一 个 独立 分 支 ,吸引 
着 大 量 杰 出 人 才 献 身 其 中 ,为 计算 机 理论 与 技术 发 展 做 出 了 重要 贡献 。 在 数据 库 领 域 ,被 称 
为 网 络 数 据 库 之 父 的 C. W. Bachman, 由 于 其 主持 设计 与 开发 了 最 早 的 网 络 数据 库 系统 
IDS, 以 及 积极 推动 与 促成 了 数据 库 标 准 的 制定 而 获得 了 1973 年 的 图 灵 (Turing) 奖 ; 被 称 
为 “关系 数据 库 之 父 ” 的 E. F. Codd 提出 关系 模型 ,不仅 为 数据 库 技术 的 发 展 奠 定 了 基础 , 同 
时 也 为 计算 机 的 普及 应 用 提供 了 强大 动力 ,因而 获得 了 1981 年 的 图 灵 奖 ; 被 称 为 “数据 库 
技术 和 事务 处 理 专家 ”的 James Gray, 由 于 解决 了 数据 库 的 完整 性 、 安 全 性 、 并 发 性 和 故障 
恢复 ,使 得 数据 库 产品 真正 进入 实用 ,被 广大 用 户 所 接受 ,因而 获得 了 1998 年 的 图 灵 奖 ; 被 
称 为 “现代 数据 库 技术 黄 基 者 ”的 M.Stonebreaker, 由 于 在 Ingres 和 Postgres 中 的 破冰 工 
作 和 在 数据 库 领 域 一 直 扮演 着 思想 领袖 的 角色 获得 了 2014 年 图 灵 奖 。 

图 灵 奖 通常 被 认为 是 计算 机 领域 中 的 诺 贝 尔 奖 ,此 奖 获得 者 都 是 计算 机 领域 中 极为 杰 
出 的 专家 学者。 计算 机 的 飞速 发 展 , 造 就 了 许多 重要 的 分 支 领域 ,出 现 了 不 少 顶尖 人 物 ,但 
在 同一 个 学 科 领 域 中 ,持续 有 四 位 图 灵 奖 得 主 , 这 在 计算 机 科学 技术 其 他 领域 并 不 多 见 ,着 
实 为 人 们 所 称道 ,并 由 此 也 可 以 体会 到 数据 库 在 整个 计算 机 领域 中 的 学 科 地 位 和 发 展 活力 。 

1. 图 灵 奖 简介 

杰出 人 物 .最 聪明 大 脑 的 加 入 ,从 来 就 是 一 门 技术 最 重要 的 学 科 地 位 与 领域 价值 的 最 显 
著 标 志 。 在 计算 机 领域 ,衡量 杰出 人 物 和 聪明 大 脑 的 通常 标准 也 许可 以 看 作 是 获得 图 灵 奖 
与 否 。 

图 灵 奖 (A. M. Turing Award) 被 称 为 计算 机 领域 中 的 诺 贝 尔 
奖 , 为 纪念 科学 家 Turing(1912 一 1954, 英 国 )( 图 1-10) 而 设立 。 
Turing 提出 Turing 机 理论 ,并 在 “二 战 ? 时 破解 德国 通信 密码 ,挽救 
了 无 数 生命 ; 他 提出 仿真 系统 和 自动 程序 设计 概念 ,设计 了 “Turing 
测试 >。 由 于 Turing 对 于 计算 机 发 展 巨大 的 历史 功绩 ,他 被 人 们 称 
为 “计算 机 之 父 “ 人 工 智能 之 父 ” 和 “密码 破译 之 父 ” 等 。 图 灵 奖 由 
ACM 于 1966 年 设立 ,奖金 20 000 美元 (1966 一 1988 年 ), 此 后 由 于 
有 关 大 企业 的 投资 ,逐步 增加 到 25 000 美元 (1989 一 2002 年 ) ,100 000 
图 1-10 Turing 美元 (2002 一 2006 年 )、250 000 美元 (2007 一 2014 年 ) 和 1 000 000 美 





元 (2014 年 至 今 ,Google 公司 赞助 ) 。 原 则 上 每 年 奖励 一 名 。 图 灵 奖 评选 条 件 极 高 ,评选 程 
序 极 严 。 主 要 获得 者 为 美国 科学 家 ,也 有 少数 英国 、 瑞 典 和 以 色 列 科学 家 。 图 灵 奖 不 仅 发 展 
中 国家 无 人 获得 ,就 连 计算 机 技术 极为 发 达 的 日 本 、 德 国 和 法 国 等 
也 无 人 获得 。 

美 籍 华人 姚 期 智 (Andrew Chi-Chih Yao) (图 1-11) ,1946 年 12 
月 24 日 生 于 上 海 。1967 年 获得 台湾 大 学 物理 学 士 学 位 ,1972 年 获 
得 美国 哈佛 大 学 物理 博士 学 位 ,1975 年 获得 美国 伊利 诺 依 大 学 计算 
机 科学 博士 学 位 。 现 任 清华 大 学 高 等 研究 中 心 (The Center for 
Advanced Study in Tsinghua University) 教 授 。 由 于 在 计算 理论 
(包括 伪 随 机 数 生成 、 密 码 学 与 通信 复杂 度 ) 的 诸多 贡献 , 姚 期 智 在 
2000 年 获 图 灵 奖 ,成 为 迄今 为 止 唯一 一 位 获 图 灵 奖 的 亚 裔 人 士 和 美 
籍 华人 。 

2. 数据 库 领 域 四 位 获奖 者 

C. W. Bachman( 图 1-12) ,1973 年 的 图 灵 奖 获得 者 。Bachman 最 重要 的 贡献 是 1964 年 
在 通用 电气 公司 主持 设计 与 实现 了 网 状 数据 库 管理 系统 IDS, 其 设计 思想 和 实现 技术 成 为 
后 来 许多 数据 库 产品 的 重要 参照 。Bachman 还 积极 推动 和 促成 了 数据 库 标准 的 制定 ,并 于 
1971 年 发 布 在 著名 的 DBTG 报告 当中 。DBTG 首次 确定 了 数据 库 三 层 体 系 结构 。 由 于 C. 
W. Bachman 做 出 的 杰出 贡献 ,其 被 尊称 为 数据库 先驱 ”和 * 网 状 数据 库 之 父 ”。 

E. F. Codd( 图 1-13) ,1981 年 图 灵 奖 获得 者 。Codd 担任 IBM 圣 约 瑟 研究 实验 室 任 高 
级 研究 员 期 间 ,1970 年 6 月 在 Communications of ACM 上 发 表 ( 大 型 共享 数据 库 数 据 的 关 
系 模型 ) 一 文 ,提出 了 基于 数学 基础 的 关系 数据 模型 ,此 篇 论文 被 ACM 列 为 1958 年 以 来 25 
年 中 最 具 里 程 碑 意义 的 25 篇 论文 之 一 。 此 后 ,Codd 继续 致力 于 完善 与 发 展 关系 数据 理论 。 
1972 年 ,提出 了 关系 代数 和 关系 演算 的 概念 ,定义 了 关系 的 并 、 交 、 投 影 、 选 择 .连接 等 各 种 
基本 运算 ,为 日 后 结构 化 查询 语言 (SQL) 黄 定 了 基础 。 经 过 Codd 的 系列 工作 ,一 批 商品 化 
关系 数据 库 系 统 很 快 被 开发 出 来 并 迅速 占领 市 场 。 因 而 Codd 被 尊称 为 “关系 数据 库 
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图 1-11 姚 期 智 
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图 1-12 C.W.Bachman 图 1-13 E.F.Codd 


J.Gray( 图 1-14) ,1998 年 图 灵 奖 获得 者 。 在 IBM 期 间 ,Gray 参与 和 主持 IMS、System 
R、SQL/DS、DB2 等 项 目 开发 ,其 中 除 System R 作为 研究 原型 外 ,其 余 已 经 成 为 IBM 公司 
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在 数据 库 市 场 上 具 影 响 力 的 产品 。J. Gray 的 杰出 贡献 是 研究 解决 数据 库 事务 处 理 技术 。 
事务 处 理 技术 诞生 于 数据 库 研 究 后 期 ,对 于 分 布 式 系统 .C/S 结构 中 的 数据 管理 与 通信 和 容 
错 及 高 可 靠 性 系统 都 具有 重要 意义 ,如 果 缺 乏 该 项 技术 ,任何 数据 库 产 品 都 无 法 进入 实用 而 
最 终 被 用 户 接 受 。J. Gray 在 1993 年 由 DEC 公司 进入 微软 公司 ,微软 公司 专门 为 其 在 旧 金 
山 建立 了 第 二 个 微软 研究 院 “ 湾 区 研究 中 心 ”(Bay Area Research Center) ,并 任命 他 为 研究 
中 心 主管 。 很 快 ,Gray 带领 的 研制 小 组 成 功 开发 出 MS SQL Server 7.0, 这 是 微软 历史 上 
具有 里 程 碑 意义 的 软件 版 本 ,该 版 本 和 其 后 续 版 本 已 经 成 为 当今 关系 数据 库 市 场 上 的 领军 
系统 。 作 为 终身 致力 于 通过 数据 库 系 统 在 人 与 人 和 人 与 物 之 间 建 立 联系 的 超级 天 才 ,Gray 
却 在 2007 年 4 月 28 日 驾 游 船 出 海 后 与 所 有 的 人 永远 地 失去 了 联系 。 

Michael Stonebraker( 图 1-15) ,2014 年 图 灵 奖 获得 者 。 作 为 现代 数据 库 系 统 的 概念 和 
实践 方面 的 奠基 人 之 一 ,Stonebraker 的 杰出 贡献 在 于 提出 了 促使 数据 库 系统 成 为 商业 化 产 
品 的 若干 重要 理念 ,而 这 些 几乎 都 在 所 有 现代 数据 库 系统 中 得 到 应 用 实现 。 他 在 Ingres 中 
引入 了 用 于 完整 性 限制 和 视图 的 查询 修改 ,在 Postgres 中 建立 了 对 象 -关系 模型 ,有 效 地 将 
数据 库 和 抽象 数据 类 型 进行 融合 的 同时 ,又 保持 了 数据 库 和 程序 设计 语言 的 分 离 。 
Stonebraker 还 将 Ingres 和 Postgres 系统 开源 ,促成 了 数据 库 的 广泛 应 用 ,两 者 的 代码 库 已 
被 集成 到 各 类 现代 数据 库 系 统 当 中 。Stonebraker 不 仅 拥有 重大 影响 力 的 数据 库 技术 成 果 ， 
同时 也 在 当今 数据 库 领 域 一 直 扮演 着 思想 领袖 的 角色 ,许多 数据 库 领 域 中 的 领军 人 物 都 是 
其 门下 高 足 , 如 Robert Epstein (Sybase 创始 人 )、Paula Hawthorn (Britton-Lee 创始 人 , 曾 
任 Informix 研发 副 总 ) .Gerald Held ( 曾 任 Oracle 研发 副 总 ) 和 Margo Seltzer (哈佛 大 学 教 
授 ,Berkeley DB 作者 ) 等 。 








图 1-14 J. Gray 图 1-15 Michael Stonebraker 


1.4.2 计算 机 应 用 领域 的 基础 支撑 


当今 世界 ,计算 机 应 用 已 经 深入 到 社会 的 各 个 方面 。 数 据 库 技术 作为 计算 机 学 科 最 大 
的 应 用 领域 ,不 仅 在 传统 商业 等 事务 处 理 领域 中 发 挥 着 极 大 的 作用 ,而 且 在 非 传统 应 用 中 也 
起 到 越 来 越 重要 的 支撑 作用 。 事 实 上 ,任何 一 门 具有 重大 意义 的 计算 机 应 用 ,几乎 都 需要 相 
应 数据 库 技术 的 支撑 。 例 如 ,在 计算 多 媒体 应 用 飞速 发 展 的 同时 ,多 媒体 数据 库 相 应 而 生 ; 
与 计算 机 网 络 同步 ,就 有 分 布 数据 库 和 并 行 数据 库 技 术 ; 与 互联 网 相 呼应 ,就 有 Web 数据 
库 和 XML 数据 库 技术 ; 与 知识 发 现 进展 配合 ,就 有 数据 仓库 和 数据 挖掘 技术 ; 与 知识 的 管 
理 相 匹 配 ,就 有 知识 库 技术 等 ; 为 物 联网 和 云 计算 所 推动 ,就 有 大 数据 管理 (NoSQL 数据 


库 ) 技 术 ; 为 GPS 和 无 线 位 置 服务 所 需求 ,就 有 移动 对 象 数据 库 技术 等 。 据 人 们 统计 ,在 所 
有 计算 机 应 用 当中 ,专门 将 数据 库 技 术 应 用 (即使 用 了 主流 数据 库 平 台 及 相关 外 围 技术 ) 作 
为 专项 技术 进行 研制 开发 , 占 了 所 有 应 用 的 70% 以 上 。 


1.4.3 一 个 学 科 带 动 一 个 产业 


由 数据 库 技术 发 展 进程 可 以 看 到 ,数据 库 学 科 发 展 和 数据 库 软件 产业 发 展 紧密 结合 并 
相互 促进 。 近 50 年 以 来 ,由 于 进行 了 较为 完整 和 系统 的 基础 理论 研究 ,数据 库 技术 具有 坚 
实 的 理论 支撑 ,形成 一 门 研究 范围 广泛 的 理论 与 技术 学 科 , 其 中 主要 包括 数据 库 管 理 系 统 软 
件 研 制 ,数据库 设计 和 数据 库 理 论 3 个 领域 。 数 据 库 学 科 发 展 带动 数据 库 软 件 产 业 的 发 展 ， 
实现 了 成 功 的 发 展 链条 ,如 图 1-16 所 示 。 


[ 王 | 基础 理论 工作 原理 ”| 实验 仿真 原型 系统 
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1-16 数据 库 技术 发 展 链条 


(1) 20 世纪 80 年 代 , 数 据 库 设 计 理 论 和 设计 方法 学 的 研究 首先 在 大 学 和 研究 所 进行 。 
以 此 为 基础 ,研究 部 门 和 软件 公司 便 着 手 研制 数据 库 辅助 设计 系统 。 

(2) 20 世纪 90 年 代 , 众 多 著名 数据 库 公 司 逐 渐 将 这 些 成 果 “ 拿 ”来 进行 产品 化 运作 , 推 
出 各 种 数据 库 设 计 工具 产品 用 以 辅助 大 型 数据 库 的 设计 ,使 之 规范 化 和 标准 化 。 

(3) 如 今 ,在 全 世界 已 有 数 百 家 数据 库 厂 商 , 提 供 数 百 种 DBMS 核心 产品 、 开 发 工具 、 
设计 工具 、 分 析 工 具 和 解决 方案 ,形成 数 百 亿美 元 的 数据 库 软件 产业 。 

数据 库 的 发 展 表明 ,对 数据 库 理 论 与 技术 的 研究 投入 带 来 了 巨大 的 商业 成 功 , 产 生 了 非 
常理 想 的 收益 回报 。 而 且 从 投入 到 回报 的 循环 只 需 短 短 十 几 年 的 时 间 , 相 关 研 究 人 员 能 够 
在 有 生 之 年 亲眼 看 到 这 些 成 就 所 产生 的 巨大 影响 和 经 济 效 益 , 这 无 疑 大 大 激励 了 研究 者 的 
研究 动力 和 投资 者 (包括 政府 和 公司 ) 的 资本 投入 ,充分 体现 了 “知识 经 济 ”" 和 “信息 时 代 ” 的 
时 代 特 征 。 

一 门 学 科 带 动 一 个 社会 产业 ,一 种 计算 机 应 用 系统 带 来 巨大 效益 ,现在 数据 库 系统 已 经 
成 为 仅 次 于 操作 系统 和 办 公 软 件 的 一 类 庞大 的 系统 软件 ,奠定 了 自身 在 计算 机 科学 技术 与 
应 用 学 科 的 基本 地 位 。 


1.4.4 保持 强劲 发 展 势 头 


从 当前 情况 来 看 ,计算 机 网 络 和 多 媒体 技术 已 经 成 为 信息 技术 的 基本 潮流 。 一 方面 , 随 
着 市 场 巨大 需求 及 技术 条 件 的 日 益 成 熟 ,基于 网 络 的 非 传 统 复合 类 型 数据 (XML 数据 、 多 
媒体 数据 和 社交 媒体 数据 等 ) 的 存储 、 查 询 和 处 理 , 已 经 成 为 新 世纪 数据 库 应 用 的 主流 ; 另 
一 方面 ,各 类 迅猛 发 展 的 计算 机 新 技术 与 数据 库 技术 相互 融合 与 促进 ,也 已 成 为 数据 库 新 技 
术 本 身 发 挥 作用 和 保持 强劲 发 展 势头 的 重要 前 提 之 一 。 数 据 库 可 以 看 作 是 一 门 技术 ,而 一 
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个 技术 能 有 如 此 旺盛 的 生命 力 ,对 计算 机 的 最 新 发 展 有 着 极 强 的 融合 力 ,相对 于 一 些 技术 方 
法 兴盛 衰落 的 情形 ,数据 库 始终 紧 随 着 计算 机 发 展 的 大 势 潮 头 。 

在 计算 机 发 展 历 史上 ,有 不 少 基本 重要 的 软件 技术 ,由 于 硬件 技术 的 发 展 和 应 用 需求 的 
改变 而 成 为 望 眼 浮 云 和 匆匆 过 客 。 这 是 因为 不 少 软件 技术 其 根本 都 是 基于 相应 的 硬件 水 
平 , 皮 之 不 存 , 毛 将 址 附 。 数 据 库 技术 最 初 的 提出 当然 也 离 不 开 当 前 的 硬件 发 展 程度 ,但 数 
据 库 的 基本 思想 是 数据 管理 ,其 中 的 数据 模型 .查询 更 新 .事务 处 理 和 安全 性 机 制 具 有 学 科 
内 涵 和 逻辑 原理 上 的 普 适 性 质 。 因 此 ,硬件 技术 的 发 展 并 不 能 作为 结束 其 生命 周期 的 “ 刍 
刀 ”, 而 是 催促 其 生命 更 加 勃发 的 "号角 ”, 为 数据 库 展示 出 更 为 广阔 的 发 展 前 景 。 

计算 机 发 展 , 往 客 匆匆 ,多 少 软件 技术 成 为 过 眼 烟云 。 然 而 ,计算 机 技术 (硬件 和 软件 ) 
越发 展 , 计 算 机 应 用 领域 越 显现 出 超 强 的 适应 性 能 ,数据 库 技术 就 会 在 更 为 广阔 的 层面 中 和 
更 为 深入 的 程度 上 得 到 强化 与 推进 。 计 算 机 领域 各 种 新 的 进展 与 突破 都 为 数据 库 技术 开辟 
了 新 的 发 展 空间 与 用 武之 地 。 


本 章 小 结 


数据 在 计算 机 应 用 意义 上 可 以 看 作 是 抽象 符号 的 特定 集合 ,其 特征 是 需要 在 给 定语 境 
中 表明 其 语义 的 。 计 算 机 数据 分 为 数值 型 和 非 数 值 型 两 种 情形 。 在 计算 机 科学 与 技术 领域 
当中 ,主要 研究 对 象 是 非 数 值 型 数据 。 

在 计算 机 应 用 环境 中 ,数据 的 使 用 分 为 数据 计算 (数据 处 理 ) 和 数据 管理 。 数 据 管理 中 
的 数据 具有 数据 量 巨大 、 数 据 持久 保存 和 数据 大 范围 共享 的 显著 特征 ,其 中 最 有 效 的 管理 技 
术 就 是 数据 库 管理 系统 。 

数据 管理 技术 经 历 了 基于 应 用 程序 (人 工 ) 管 理 , 文 件 系统 管理 和 数据 库 管理 3 个 发 展 阶 
段 ; 而 数据 库 技术 也 经 历 了 第 一 代数 据 库 ( 格 式 化 数据 库 : 层次 和 网 状 数据 库 ) .第 二 代数 据 库 
(关系 数据 库 ) 和 新 一 代数 据 库 ( 第 三 代数 据 库 , 以 对 象 数据 库 为 主要 代表 ) 的 发 展 历程 。 

由 于 计算 机 应 用 实际 上 就 是 存储 、 加 工 和 使 用 数据 ,因此 绝 大 多 数 计算 机 应 用 系统 都 需 
要 数据 库 技术 的 底层 支撑 ,数据 库 系统 已 经 成 为 最 大 的 计算 机 应 用 产业 之 一 ,具有 完整 的 理 
论 体系 和 广泛 的 应 用 领域 ,先后 诞生 了 4 位 图 灵 奖 获得 者 ,并 成 功 实现 了 技术 研发 与 商业 化 
产品 的 良好 循环 。 

自 20 世纪 60 年 代 末 70 年 代 初 期 到 现在 ,经 过 近 半 个 世纪 的 发 展 ,数据 库 已 经 形成 数 
据 模型 丰富 多 彩 .新 鲜 技术 层出不穷 和 应 用 范围 不 断 扩大 深化 的 庞大 家 族 。 在 这 个 家 族 中 ， 
由 于 各 类 技术 的 展开 和 系统 研制 都 需要 建立 在 数据 模型 基础 之 上 ,也 就 是 说 ,所 有 类 型 的 数 
据 库 技术 都 是 基于 或 支持 某 种 数据 模型 ,因此 数据 模型 就 成 为 各 类 数据 库 技术 的 发 展 主线 。 
按照 数据 模型 考虑 ,可 分 为 第 一 代 ( 层 次 和 网 状 模 型 数据库、 第 二 代 ( 关 系 模型 ) 数 据 库 和 新 
一 代 ( 以 对 象 数据 库 模 型 为 代表 的 各 类 新 型 数据 模型 ) 数 据 库 。 此 外 ,为 了 具体 厘清 脉络 ,还 
可 以 从 其 他 不 同 视角 进行 考虑 。 从 与 计算 机 涌现 出 的 新 技术 结合 角度 ,可 以 分 为 与 分 布 式 
计算 相关 的 分 布 式 数 据 库 .与 Web 技术 相关 的 Web 数据 库 .与 人 工 智能 相关 的 知识 库 和 以 
多 媒体 技术 相关 的 多 媒体 数据 库 ; 从 时 空 维度 角度 考虑 ,有 显 式 处 理 空间 维度 的 空间 数据 
库 、 显 式 处 理 时 间 维 度 的 时 态 数据 库 , 以 及 同时 显 式 处 理 空间 与 时 间 维 度 的 时 空 数据 库 ,而 
将 其 他 数据 库 类 型 看 作 “ 隐 式 " 表 示 “ 当 时 当地 ”的 快照 数据 库 。 此 外 ,还 可 以 从 面向 应 用 角 





度 考 虑 各 类 特定 的 数据 库 , 如 面向 联机 分 析 和 知识 发 现 领域 的 数据 仓库 和 数据 挖掘 技术 \ 面 
向 CPS 及 无 线 通信 网 络 终端 智能 应 用 的 移动 对 象 数据 库 等 。 从 不 同 角度 考察 数据 库 技术 
的 状况 ,实际 上 就 是 探究 其 发 展 的 基本 特征 和 未 来 趋势 。 

需要 说 明 的 是 ,从 整体 上 来 看 ,数据库 技术 的 应 用 领域 可 以 大 致 分 为 事务 型 应 用 和 非 事 
务 型 应 用 。 从 数据 库 技术 的 适应 架构 考虑 ,经 典 关系 型 数据 库 只 适合 于 管理 事务 型 数据 ,而 
各 类 新 型 的 数据 库 应 用 需求 大 多 都 是 基于 非 事务 型 数据 。 但 是 由 于 非 事务 型 数据 管理 技术 
的 复杂 性 与 多 样 性 ,迄今 为 止 乃至 在 可 以 预见 的 未 来 ,研制 开发 出 像 关 系数 据 库 那 样 功能 强 
大 而 又 极其 成 功 的 情形 可 能 还 只 是 个 例 。 面 对 大 量 的 非 事务 数据 管理 的 强劲 需求 ,如 前 所 
述 ,要 么 直接 将 关系 数据 库 应 用 其 上 ,要 么 将 关系 数据 库 进 行 适当 拓展 (基于 对 象 关系 数据 
库 的 多 媒体 等 ) ,要么 就 是 直接 构造 相应 基本 功能 构件 (如 基于 索引 的 查询 与 更 新 构件 等 )。 
由 此 看 来 , 非 事务 型 数据 的 管理 是 现代 数据 库 技术 的 巨大 挑战 ,当然 也 更 是 数据 库 技术 取得 
更 大 发 展 的 机 遇 。 
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第 2 章 关系 数据 库 基础 





关系 数据 库 (Relational DataBase,RDB) 是 基于 关系 数据 模型 的 数据 管理 技术 , 它 的 原 
理 和 技术 产生 于 20 世纪 70 年 代 初期 ,发 展 于 20 世纪 八 九 十 年 代 。20 世纪 90 年 代 末期 特 
别 是 进入 21 世纪 之 后 ,RDB 与 计算 机 网 络 技术 密切 结合 ,通过 各 类 扩充 与 发 展 ,焕发 出 新 
的 生命 活力 。 由 于 RDB 建立 在 数学 理论 之 上 ,使 得 技术 意义 下 的 数据 组 织 、 管 理 和 操作 等 
具有 较 高 的 抽象 层次 和 科学 的 理论 特质 ,带动 了 整个 数据 库 理论 与 技术 的 莲 勃 发 展 , 它 的 建 
立 是 数据 库 发 展 历史 上 最 重要 的 事件 。 自 20 世纪 80 年 代 以 来 ,各 计算 机 厂商 研制 的 数据 
库 管理 系统 (DBMS) 几 乎 都 是 关系 类 型 ,即便 各 种 非 关 系 系统 也 大 都 附加 有 关系 接口 。 基 
于 关系 模型 的 RDB 直到 现在 并 且 在 今后 相当 长 一 段 时 间 内 ,都 是 最 重要 和 最 流行 的 数据 
库 。 关 系数 据 技术 也 是 其 他 数据 库 原理 和 技术 的 基础 支撑 。 本 章 通过 简要 回顾 RDB 的 基 
本 理论 与 技术 ,为 高 级 数据 库 技术 后 续 学 习 提 供 原 理 和 技术 上 的 准备 。 


2.1 关系 数据 模型 


如 前 所 述 ,数据 管理 是 一 类 最 大 的 计算 机 应 用 领域 ,其 核心 就 是 以 统一 管理 数据 和 多 用 
户 共享 数据 为 基本 特征 的 数据 库 系统 。 数 据 模型 不 仅 是 数据 结构 和 数据 操作 的 抽象 ,还 是 
数据 管理 的 出 发 点 ,更 是 数据 库 原理 探讨 和 技术 研发 的 基础 。 数 据 模型 的 发 展 进程 就 是 数 
据 管 理 技术 的 演进 轨迹 。 关 系数 据 模型 由 静态 的 数据 结构 ,动态 的 数据 操作 和 语义 限制 的 
数据 完整 性 约束 三 部 分 组 成 。 


2.1.1 关系 数据 结构 


关系 数据 结构 本 质 上 可 以 看 作 是 一 种 数学 结构 。 从 数学 上 来 看 ,关系 数据 结构 是 多 个 
域 集 合 上 笛 卡 儿 乘 积 的 一 个 子 集 。 在 离散 数学 中 ,这 样 的 子 集 通常 称 为 域 集合 上 的 一 个 关 
系 ,这 也 是 关系 数据 中 “关系 ”一 词 的 由 来 。 

1. 关系 和 关系 表 

关系 数据 结构 可 以 使 用 数学 中 的 “关系 ”概念 进行 描述 。 

在 数学 中 ,给 定 个 集合 D1,D,,…,D, (这 些 集合 可 以 有 若干 相同 ), 可 以 定义 其 上 的 
笛 卡 儿 乘积 为 如 下 集合 。 

Di XD:X…XD,=((dd sd,) | di € Di,i= 1,2,.%,n} 

其 中 ,元 素 (d1,d;,…,d,) 称 为 向 量 ,d;(i 二 1,2,… ,n) 称 为 该 向 量 的 第 i 个 分 量 。 

笛 卡 儿 乘 积 的 一 个 子 集 就 称 为 集合 Di ,D;,…,D, 的 一 个 关系 。 

数学 是 科学 的 皇冠 ,具有 最 高 层面 的 抽象 意义 。 但 就 数学 对 于 其 他 科学 技术 指导 和 应 


用 而 言 ,并 不 是 “螺丝 刀 和 螺丝 钉 ? 之 间 那 种 * 拿 来 就 用 ”的 简单 关联 。 数 学 原理 应 用 于 具体 
技术 领域 的 关键 之 一 就 是 对 抽象 层面 上 的 概念 理论 进行 相关 技术 的 “学 科 释 义 ”, 如 数学 图 
论 中 的 “ 树 ” 和 “图 ”概念 在 多 个 技术 领域 中 的 广泛 应 用 就 是 如 此 。 在 离散 数学 中 ,“ 关 系 ” 只 
是 数学 意义 下 的 一 个 抽象 概念 ,涵盖 面 极其 广阔 ,具体 到 数据 库 的 技术 领域 ,需要 对 其 进行 
基于 数据 管理 框架 内 的 技术 性 解读 ,或 者 说 需要 进行 数学 “关系 ”在 数据 库 语 境 中 的 语义 说 
明 。 这 种 语义 解释 实际 上 就 是 对 “关系 ”概念 进行 各 种 具有 明确 技术 实现 指向 的 限制 。 基 于 
数据 库 的 数据 管理 最 重要 的 语 境 就 是 数据 模型 ,因此 ,首先 就 要 对 数学 概念 “关系 ”进行 概念 
数据 模型 和 逻辑 数据 模型 的 语义 解读 ,其 次 还 要 进行 其 他 必需 的 技术 语义 解读 。 

1) 概念 模型 解释 

将 上 述 每 个 D;(i 二 1,2,…,n) 看 作 是 给 定数 据 值 的 集合 也 就 是 属性 域 ( 简 称 为 域 ”)， 
并 为 每 个 域 赋予 一 个 具有 语义 的 名 称 。“ 域 "是 一 组 具有 相同 数据 类 型 的 值 的 集合 ,如 整数 
域 .实数 域 和 长 度 指 定 的 字符 串 域 等 。 这 样 就 可 以 将 个 域 D,,D,,…,D, 上 的 笛 卡 儿 乘积 
中 DD XD,X…XD, 的 每 一 个 向 量 元 素 看 作 是 概念 数据 模型 E-R 图 中 一 个 实体 ,向 量 的 每 
一 个 分 量 就 是 对 应 实体 的 一 个 “属性 值 ”。 同 时 将 笛 卡 儿 乘积 中 的 给 定子 集 即 整个 “关系 ”看 
作 是 相应 实体 构成 的 E-R 模型 中 的 实体 集 。 

2) 逻辑 模型 解释 

在 上 述 概念 模型 语义 解释 中 ,由 于 实体 集中 的 每 个 实体 都 具有 相同 结构 属性 域 , 也 就 是 
具有 相同 的 实体 型 。 因 此 ,可 以 将 其 中 每 个 实体 表示 为 “一 行 ”, 而 将 相应 实体 集 表示 为 由 实 
体 “ 行 ” 构 成 的 一 张 二 维 平面 表格 。 此 时 ,如 果 再 对 每 个 属性 域 中 的 属性 值 加 以 “原子 性 ”, 即 
不 可 再 分 解 的 限制 ,并 对 实体 集 对 应 的 平面 表格 添加 一 个 由 对 应 属性 名 构成 的 “ 首 行 ”作为 
“ 表 头 ”, 则 可 将 数学 “关系 ”对 应 的 “实体 集 " 解 释 为 一 张 平面 表格 。 由 于 满足 一 定语 法 要 求 
的 表格 与 数学 意义 上 的 “关系 ”具有 上 述 内 在 联系 ,因此 通常 将 其 称 为 “关系 表 ”(relation 
table) ,关系 表 就 是 关系 数据 模型 的 逻辑 结构 。 在 不 引起 混淆 的 情况 下 ,通常 也 将 数据 库 语 
境 中 的 “关系 表 ” 与 带 有 数学 印记 的 抽象 概念 “关系 ”有意 混用 ,关系 表 就 直接 称 为 “关系 ”并 
简 记 为 “R”。 这 种 混用 实际 上 就 明确 反映 了 关系 数据 结构 具有 坚实 的 数学 支撑 ,从 而 基于 
关系 数据 结构 的 数据 操作 实际 上 也 就 可 以 归结 为 相应 的 数学 运算 。 

3) 关系 数据 结构 的 语义 约束 

上 述 定义 的 关系 R 需要 满足 RR 三 Di X D, X…XD,, 这 是 对 关系 R 的 基本 语法 要 求 。 
但 这 种 基于 数学 意义 的 语法 要 求 在 某 种 意义 上 过 于 宽泛 ,同时 又 在 其 他 意义 下 约束 较 严 ,还 
需要 结合 计算 机 自身 特点 和 实际 应 用 中 需要 ,对 于 上 述 定义 的 关系 R 施加 必要 限制 和 解除 
某 些 原 有 约束 。 

(1) 有 限 性 限制 。“ 域 "和 “关系 ”都 是 集合 ,数学 中 的 集合 可 有 “无 限 " 个 元 素 , 而 计算 机 
只 能 处 理 * 有限” 个 元 素 , 因 此 ,需要 限定 “ 域 " 和 “关系 ”都 只 能 包含 有 限 个 元 素 。 

(2) 原子 性 限制 。 数 学 意义 下 “属性 域 ” 中 元 素 只 要 满足 域 集合 给 出 的 相应 条 件 即 可 ， 
但 从 关系 数据 管理 技术 实现 角度 考虑 , 却 需 要 “ 域 * 中 的 元 素 ( 即 “属性 值 ”) 不 能 有 结构 ,应 该 
具有 “原子 性 ”, 这 就 是 RDB 中 著名 的 1NF 规范 性 限制 。 

(3) 顺序 性 解除 。“ 关 系 ” 由 “ 行 向 量 " 组 成 ,而 数学 意义 上 组 成 “向 量 ” 的 各 个 分 量 之 间 
的 顺序 是 重要 的 ,但 在 实际 数据 管理 过 程 当中 ,按照 人 们 实际 应 用 中 的 直观 经 验 , 行 的 分 量 
即 属性 值 之 间 的 顺序 在 很 多 情况 下 并 无 必要 。 例 如 ,对 于 一 个 学 生 实体 而 言 , 是 先 讲 “ 学 号 ” 





关系 数据 府 基 而 


地 四 


高 级 数据 亩 基础 乾 程 





还 是 先 讲 “姓名 ”并 不 会 影响 对 学 生 信 息 的 了 解 。 因 此 ,关系 表 中 组 成 “ 行 ” 的 属性 值 之 间 的 
顺序 限制 可 以 解除 。 

(4) 空 值 性 拓展 。 数 学 意义 下 * 行 向 量 的 每 个 分 量 都 需要 取 确 定 的 “ 值 ”。 关 系 表 中 的 
“元 组 ”表示 现实 世界 中 的 数据 对 象 ,其 中 的 “属性 值 ” 表 示 数 据 对 象 的 特征 ,而 实际 当中 某 些 
属性 值 却 不 能 确定 。 例 如 ,一 个 单位 的 职工 关系 表 , 其 中 的 “住宅 电话 ”属性 值 就 可 能 不 确 
定 : 有 人 必须 填写 ,有 人 可 填 可 不 填 而 选择 不 填 , 还 有 人 则 没有 安装 等 。 因 此 关系 表 就 可 以 
解除 “ 行 向 量 ? 中 * 分 量 ? 必 须 取 确 定 值 的 数学 限制 ,允许 某 个 或 某 些 属性 值 “ 空 置 ?以 表明 其 
不 确定 性 ,也 就 是 说 ,关系 表 中 属性 值 可 以 取 “ 空 值 ”, 空 值 通常 使 用 空缺 符 NULL 表示 。 

从 严格 意义 上 来 讲 , 满 足 上 述 各 类 约束 和 条 件 的 “关系 ” 才 可 以 作为 计算 机 语 境 中 的 “ 关 
系 表 ”。 此 时 ,关系 表 中 除 表 头 行 之 外 的 每 一 行 (数据 记录 ) 称 为 一 个 元 组 ,每 一 列 称 为 一 个 
属性 列 ,元 组 中 的 每 一 个 数据 项 称 为 属性 值 。 

此 外 ,由 上 述 数 学 “关系 ”概念 的 数据 模型 解读 可 知 ,关系 数据 结构 与 实体 -联系 概念 数 
据 模型 ( 即 E-R 图 ) 密 切 相 关 , 再 通过 进一步 的 释义 ,就 进入 到 逻辑 数据 模型 的 范畴 ,这 实际 
上 就 为 在 RDB 数据 库 设 计 中 从 概念 模型 到 逻辑 模型 的 转化 原理 和 方法 提供 了 内 在 的 可 行 
性 和 有 效 性 支撑 。 

2. 主键 和 外 键 

由 上 述 可 知 ,关系 数据 结构 中 的 元 组 表示 为 E-R 模型 中 的 “实体 ,关系 数据 结构 本 身 
表示 为 实体 集 。 注 意 到 E-R 模型 是 实体 -联系 模型 ,此 时 还 需要 讨论 实体 标识 和 实体 集 之 间 
“联系 ”在 关系 数据 结构 的 表示 。 这 就 是 下 述 讨论 的 “主键 "和 “外 键 ”。 

1) 关系 表 中 数据 实体 “标识 "由 “主键 "实现 

关系 表 中 元 组 的 唯一 标识 通常 是 其 所 具有 的 一 组 特定 属性 并 称 其 为 “ 超 键 ”(super key) 。 

“最 小 ”意义 下 的 超 键 称 为 “候选 键 ”(candidate key) 。 

一 个 关系 表 可 有 多 个 候选 键 ,在 应 用 中 确定 使 用 的 候选 键 称 为 主键 (primary key) ,并 
规定 主键 列 数据 不 能 重复 并 不 能 为 空 。 

2) 不 同 关系 表 间 数据 实体 “联系 ”由 “外 键 "实现 

设 A 是 关系 表 R 和 S 的 一 个 共同 属性 子 集 ,如 果 A 不 是 R 的 主键 但 是 S 的 主键 , 则 称 
A 是 R( 关 于 S) 的 外 键 (foreign key) ,并 称 R 是 参照 关系 (referencing relation) 而 S 是 被 参 
照 关系 (referenced relation)。 

设 有 下 述 3 个 关系 表 。 

(1) 学 生 关 系 表 S: SCSno,Sname,Ssex,Sage,Sdept) 。 

(2) 课程 关系 表 C: C(Cno,Cname,Cpno,Ccredit)。 

(3) 学 生 课 程 关 系 表 SC: SC(Sno,Cno,Grade)。 

其 中 ,Sno 为 S 关 系 表 中 的 主键 ,Cno 为 C 关系 表 中 的 主键 ,Sno,Cno 为 SC 关系 表 的 
复合 主键 ; SC 关系 表 中 的 “Sno" 需 要 是 登记 在 册 学 生 的 学 号 , 即 在 S 表 中 已 存在 的 学 号 ; 
同时 ,SC 关系 表 中 的 “Cno” 需 要 是 已 经 开设 课程 的 课程 号 , 即 在 C 表 中 已 存在 的 课程 号 ,这 
样 ,通过 SC 中 属性 “Sno” 构 成 SC 关于 S 的 外 键 联系 ,通过 SC 中 属性 “Cno” 构 成 SC 关于 C 
的 外 键 联 系 , 即 SC 中 的 两 个 (单元 素 ) 属 性 子 集 {Sno} 和 {Cno}) 分 别 是 其 关于 S 和 关于 C 的 
外 键 。 需 要 注意 的 是 ,单元 素 集 {Sno} 和 单元 素 集 {Cno} 并 不 是 SC 的 主键 ,只 有 双 元 素 集 
{Sno,Cno}) 才 构成 SC 的 唯一 主键 ,因此 ,SC 关于 S 和 C 的 外 键 符合 上 述 外 键 定义 的 要 求 。 











关系 表 中 一 个 或 一 组 属性 能 否 成 为 相应 的 主键 和 外 键 完全 取决 于 相应 的 数据 语义 而 不 
是 语法 规定 ,因此 ,主键 和 外 键 技术 构成 了 关系 数据 基本 的 语义 实现 机 制 之 一 。 


2.1.2 数据 操作 


数据 管理 的 基本 操作 主要 是 查询 和 更 新 。 由 于 关系 数据 结构 是 数学 意义 下 的 一 种 集合 
结构 ,关系 数据 的 查询 和 更 新 操作 也 就 可 以 归结 为 相应 集合 的 数学 运算 ,关系 操作 也 因 之 称 
为 关系 运算 。 在 数学 中 ,命题 逻辑 和 集合 运算 等 价 , 在 关系 数据 操作 中 ,也 有 基于 (集合 ) 代 
数 的 关系 运算 与 基于 (命题 ) 逻辑 的 关系 运算 之 分 ,前 者 通常 称 为 关系 代数 ,后 者 称 为 关系 

按照 所 依据 的 数学 基础 不 同 ,关系 运算 和 建立 其 上 的 数据 库 语 言 可 分 为 如 下 3 种 类 型 。 

1) 基于 关系 代数 

关系 数据 更 新 的 实现 途径 如 下 。 

(1) 将 集合 代数 中 集合 的 “并 ”运算 解读 为 关系 表 中 元 组 的 插入 操作 。 

(2) 将 集合 的 “ 差 ” 运 算 解 读 为 关系 表 中 元 组 的 “删除 ”操作 。 

(3) 关系 表 中 元 组 数据 的 “修改 ” 则 通过 *“ 先 删除 再 插入 ”的 技术 方式 予以 实现 。 

关系 数据 查询 由 专门 的 数学 中 未 曾 出 现 过 的 新 集合 运算 实现 ,这 主要 包括 “选择 ”“ 投 
影 " 和 “连接 (广义 笛 卡 儿 乘积 )”。 这些 基 于 关系 数据 查询 的 集合 运算 与 并 交差 等 经 典 集合 
运算 在 数学 意义 上 基本 一 致 ,具有 运算 的 封闭 性 。 

关系 代数 中 数据 处 理 的 基本 单位 或 “变量 ?是 元 组 。 典 型 关系 代数 语言 有 IBM United 
Kingdom 研究 中 心 研制 的 ISBL(Information System Base Language) ,并 将 其 应 用 于 PRTV 
(Peterlee Relational Test Vehicle) 实 验 系统 。 

2) 基于 关系 演算 

以 数理 逻辑 中 的 谓词 演算 (主要 是 命题 演算 ) 为 基础 ,按照 基本 处 理 单位 即 谓词 变 元 对 
象 不 同 而 分 为 两 种 情形 : 以 元 组 为 变 元 的 称 为 元 组 关系 演算 ; 以 属性 为 变 元 的 称 为 域 关系 
演算 。 代 表 性 的 元 组 关系 演算 语言 是 E. F. Codd 提出 的 ALPHA, 其 中 查询 语句 谓词 为 
GET ,而 更 新 语句 谓词 为 PUT、HOLD、 UPDATE DELETE .DROP。Ingres 所 用 的 QUEL 
语言 就 是 参照 ALPHA 语言 研制 的 。 典 型 的 域 关系 演算 语言 是 M. M. Zloof 提出 的 QBE 
(Query By Example) 。QBE 以 元 组 变量 的 分 量 ( 即 域 变量 ) 作 为 谓词 变 元 基本 对 象 , 其 基本 
特征 是 基于 屏幕 表格 进行 数据 查询 , 即 以 填写 表格 的 方式 构造 查询 ,以 示例 元 素 ( 域 变量 ) 方 
式 表 达 查 询 结果 可 能 的 情况 ,以 表格 形式 显示 相应 查询 结果 。 

3) 基于 关系 代数 与 关系 演算 整合 

相应 的 数据 库 语言 就 是 著名 的 关系 数据 查询 语言 SQL。 查 询 语言 是 系统 提供 给 用 户 
用 以 在 数据 库 中 获取 查询 结果 的 一 种 计算 机 语言 ,通常 比 一 般 程 序 设计 语言 具有 更 高 的 技 
术 层 次 ,这 主要 表现 在 查询 语言 可 以 分 为 过 程 化 语言 (procedual language) 和 非 过 程 化 语言 
(nonprocedual language) 两 种 情形 。 前 者 在 给 出 查询 目标 的 同时 需要 给 出 具体 操作 步 又， 
而 后 者 只 需 给 出 查询 目标 即 可 ,具体 实施 步骤 由 系统 自动 选择 和 完成 。 

关系 代数 对 应 语言 是 过 程 化 的 ,关系 演算 对 应 语言 是 非 过 程 化 的 ,它们 都 具有 简洁 明确 
和 形式 化 的 特点 ,同时 也 反映 了 由 数据 库 提取 数据 的 基本 过 程 与 技术 ,但 由 于 缺少 方便 用 户 
使 用 的 商业 化 的 “语法 与 语义 修饰 ”, 因 而 普及 程度 不 够 。SQL 整合 了 关系 代数 和 关系 演 
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算 ,集成 了 两 者 的 优势 ,化 解 了 其 中 的 不 足 , 形 成 了 关系 数据 库 的 标准 查询 语言 ,当今 几乎 所 
有 关系 数据 库 都 是 通过 SQL 完成 其 数据 查询 与 其 他 相关 数据 操作 的 。 


2.1.3 完整 性 约束 


如 果 一 个 关系 表 满足 相应 的 基本 语法 要 求 , 就 可 以 认为 是 “合法 的 ”, 但 “合法 的 ”并 不 能 
自然 就 成 为 “合用 的 ”, 还 需要 进行 必要 的 语义 限制 。 前 述 就 对 “关系 表 ” 进 行 了 一 系列 的 基 
于 数据 管理 的 语义 约束 ,这 可 以 看 作 是 从 数据 结构 角度 进行 的 语义 限制 。 由 于 关系 数据 结 
构 对 应 的 概念 数据 模型 E-R 具有 相当 丰富 的 语义 内 容 , 仅 有 “结构 ”方面 的 语义 限制 还 是 不 
够 ,还 需要 对 其 数据 操作 过 程 进行 必要 的 语义 限制 。 通 常 将 这 种 基于 数据 操作 过 程 需要 的 
语义 限制 称 为 数据 的 完整 性 约束 。 从 逻辑 角度 考虑 ,这 种 完整 性 约束 的 基本 要 求 就 是 限定 
数据 对 应 实体 集 的 “范围 ”( 即 “ 外 延 ”) 和 描述 数据 语义 之 间 联 系 。 关 系数 据 的 完整 性 约束 主 
要 包括 下 述 4 个 方面 。 

(1) 实体 完整 性 。 数 据 的 标识 是 进行 数据 语义 处 理 的 前 提 , 因 此 首先 需要 保证 在 数据 
操作 过 程 关 系数 据 中 元 组 的 标识 不 能 为 空 而 且 唯一 ,由 此 建立 起 关系 数据 的 实体 完整 性 约 
束 : 关系 表 中 主键 不 能 取 空 值 并 且 不 能 重复 。 

(2) 域 完整 性 。 域 完整 性 是 指 列 的 值 域 的 完整 性 , 域 完整 性 限制 了 某 些 属性 中 出 现 的 
值 ,把 属性 限制 在 一 个 有 限 的 集合 中 。 例 如 ,如 果 属 性 类 型 是 整数 ,那么 它 就 不 能 是 101. 5 
或 任何 非 整 数 。 

(3) 参照 完整 性 。 数 据 之 间 联 系 不 仅 是 理解 数据 语义 的 基础 ,还 可 以 通过 研究 数据 联 
系 以 采用 相应 技术 手段 以 提高 数据 处 理 效率 ,如 通过 具有 联系 的 数据 之 间 相 互 “ 引 用 ”可 达 
到 减少 存储 空间 和 快速 查找 的 良好 效果 。 关 系数 据 的 参照 完整 性 约束 就 是 上 述 思想 的 技术 
实现 手段 。 参 照 完 整 性 : 当 属性 集 A 是 关系 表 R 关于 关系 表 S 的 外 键 时 ,A 取 空 值 或 者 取 
S 中 某 个 元 组 的 主键 值 。 这 就 意味 着 外 键 不 能 取 被 参照 表 中 不 存在 的 属性 值 。 

(4) 用 户 定义 完整 性 。 数 据 语 义 与 数据 所 处 语 境 有 密切 关联 ,实际 用 户 的 应 用 环境 是 
最 重要 的 数据 语 境 之 一 。 具 体 应 用 中 的 语义 需要 通过 用 户 自身 的 约束 来 实现 。 关 系数 据 的 
用 户 定义 完整 性 约束 是 数据 实际 语 境 语义 的 具体 实现 ,但 由 于 与 各 种 各 样 的 应 用 背景 关联 ， 
系统 难以 统一 处 理 ,呈现 出 复杂 多 样 的 特点 。 


2.1.4 关系 数据 模式 


作为 一 个 基本 概念 ,数据 模型 是 数据 管理 过 程 中 数据 结构 ,数据 操作 和 完整 性 约束 的 完 
整 抽 象 , 从 实际 应 用 角度 考虑 ,通常 也 将 数据 模式 看 作 数 据 模型 在 一 个 单位 部 门 中 具体 实现 
的 内 涵 约 定 , 而 将 数据 实例 看 作 其 相应 的 外 延 实例 。 

1. 模式 与 实例 

(1) 数据 模式 : 在 给 定数 据 模型 框架 内 对 具体 应 用 数据 的 描述 。 数 据 模型 可 以 类 比 于 
程序 设计 语言 ,数据 模式 可 以 看 作 是 使 用 该 语言 的 请 法 格式 建立 起 来 的 一 种 面向 应 用 的 数 
据 类 型 ,数据 实例 可 以 看 作 是 具有 该 数据 类 型 变量 的 一 个 实际 取 值 。 按 照 一 定 的 语法 和 语 
义 约束 ,关系 数据 模型 对 应 众多 具有 实际 应 用 需求 的 关系 数据 模式 ,这 就 如 同 在 C++ 中 按照 
相应 语法 要 求 可 以 根据 需要 建立 众多 的 “结构 类 型 "或 “数组 类 型 "。 实 际 数据 管理 过 程 中 应 
用 关系 数据 模型 建立 的 具体 关系 数据 库 就 是 关系 数据 模式 。 


(2) 数据 实例 : 相应 数据 模式 在 具体 应 用 环境 中 的 实现 。 例 如 ,为 了 管理 2017 级 计算 
机 学 院 研 究 生 数据 信息 ,可 以 按照 关系 模型 的 语法 和 语义 要 求 创建 一 个 关系 表 ( 关 系 模式 ) ， 
此 时 尚未 填写 具体 数据 的 “ 空 表 ”就 是 一 个 关系 数据 模式 , 它 刻画 了 此 时 关系 模式 的 构成 方 
式 , 属 于 元 数据 层级 ; 而 由 每 个 2017 年 人 学 研究 生 填 写 之 后 得 到 的 就 是 关系 数据 实例 , 它 
记录 了 按照 关系 模式 约定 的 实际 数据 信息 ,属于 具体 数据 层级 。 

由 此 可 知 ,关系 模式 就 是 关系 模型 在 一 个 应 用 环境 中 的 映射 ,而 关系 实例 就 是 相应 关系 
模式 在 具体 数据 上 的 实现 。 从 技术 实现 形式 来 看 ,对 于 一 个 具体 的 关系 表 , 表 头 就 表示 关系 
模式 ,而 表 头 之 后 的 各 个 具体 元 组 就 构成 了 关系 实例 。 关 系 模式 相对 稳定 ,关系 实例 常常 需 
要 进行 插入 、 删 除 和 修改 。 

区 分 “关系 模式 ”和 “关系 实例 ”的 意义 在 于 有 效 处 理 关系 模型 的 “型 "与 “ 值 ”的 问题 。 关 
系数 据 管理 的 关键 在 于 关系 模式 的 设计 和 管理 。 

需要 注意 的 是 ,实际 应 用 中 通常 并 不 刻意 在 语言 表述 上 明确 区 分 “关系 模型 “关系 模 
式 ”" 和 “关系 实例 ”, 而 将 它们 统称 为 “关系 ”, 这 是 一 种 在 严格 明确 其 内 涵 之 后 的 一 种 基于 使 
用 简洁 的 “有 意 混用 ”, 这 在 前 述 和 后 续 内 容 学 习 过 程 乃至 其 他 学 科 中 也 常 出 现 。 

2. 三 级 模式 /两 级 映射 

RDB 的 基础 是 关系 数据 模型 ,关系 数据 模型 在 实际 应 用 中 会 有 各 种 各 样 不 同 的 关系 模 
式 , 而 RDBMS( 关 系数 据 库 管理 系统 ) 需 要 为 这 些 基 于 关系 数据 模型 的 多 样 关系 数据 模式 
建立 统一 的 管理 机 制 , 也 就 是 关系 数据 模型 的 实际 应 用 的 技术 实现 机 制 , 因 而 需要 建立 相应 
的 数据 库 体 系 结构 ,这 就 是 “三 级 模式 /两 级 映射 ”的 结构 体系 。 

数据 模型 有 迎 辑 数据 模型 和 物理 数据 模型 之 分 ,相应 的 就 有 逻辑 模式 和 物理 模式 之 别 。 
实际 上 ,美国 国家 标准 协会 (ANSD) 就 将 数据 模式 分 为 内 模式 (物理 模式 ) 、 概 念 模式 (逻辑 模 
式 ) 和 外 模式 (用 户 模 式 )3 种 级 别 。 

1) 三 级 模式 /两 级 映射 体系 结构 

关系 数据 库 体系 结构 都 是 建立 在 三 级 模式 /两 级 映射 的 原理 基础 之 上 的 。 

(1) 内 模式 。 使 用 物理 数据 模型 对 一 个 应 用 单位 所 涉及 数据 的 描述 ,内 模式 对 于 一 般 
用 户 透 明 ,主要 由 相应 的 DBMS( 数 据 库 管理 系统 ) 设 计 处 理 。 

(2) 概念 模式 。 使 用 人 逻辑 数据 模型 对 一 个 应 用 单位 所 涉及 数据 的 描述 ,这 是 数据 库 设 
计 的 最 重要 工作 ,通常 所 说 的 数据 库 模 式 设计 就 是 数据 库 概念 模式 的 设计 。 

(3) 外 模式 。 对 一 个 应 用 单位 中 某 个 或 某 些 用 户 所 涉及 数据 的 个 别 描述 ,外 模式 可 以 
看 作 是 相应 概念 模式 的 一 个 子 集 ,需要 从 相应 概念 模式 推演 而 得 。 

数据 库 系 统 的 上 述 三 级 模式 结构 的 意义 在 于 ,将 一 个 应 用 单位 所 涉及 数据 的 技术 组 织 
交 由 DBMS 完成 ,使 得 用 户 不 必 具 体 处 理 数据 在 计算 机 中 的 表示 和 存储 方式 ,专注 在 较 高 
的 抽象 层面 上 对 数据 进行 有 效 管理 。 

上 述 3 个 数据 模式 可 以 通过 两 级 映射 进行 相互 转换 : 外 模式 /概念 模式 映射 ; 概念 模 
式 /内 模式 映射 。 

2) 数据 独立 性 

如 前 所 述 ,数据 独立 性 是 数据 共享 性 的 基本 保障 之 一 :而 * 三 级 模式 /两 级 映射 ”体系 结 
构 的 意义 就 在 于 从 技术 实现 上 保证 数据 库 中 的 数据 独立 性 。 

(1) 外 模式 /概念 模式 映射 。 外 模式 /概念 模式 映射 保证 了 数据 的 逻辑 独立 性 : 即 当 概 
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念 模式 发 生变 化 时 ,如 添加 新 的 关系 表 、 取 消 原 有 关系 表 , 或 者 对 已 有 关系 表 增添 新 的 数据 
或 删除 原 有 属性 ,只 需要 改动 相应 的 映射 ,而 外 模式 本 身 并 不 需要 改变 。 用 户 的 应 用 程序 依 
据 相 应 外 模式 编写 ,所 以 应 用 程序 也 无 须 改变 。 

(2) 概念 模式 /内 模式 映射 。 概 念 模式 /内 模式 映射 保证 了 数据 的 物理 独立 性 , 即 当 内 
模式 由 于 采用 了 新 的 存储 结构 (如 原先 无 索引 需要 改 用 索引 存储 结构 等 ) 而 发 生 改 变 时 ,只 
需要 改动 相应 的 映射 ,而 概念 模式 本 身 也 不 需要 改变 ,进而 对 应 的 外 模式 也 无 须 改 变 ; 反之 
也 是 如 此 。 

在 实际 应 用 过 程 中 ,相对 于 结构 本 身 的 内 在 变动 ,结构 之 间 映 射 的 变动 更 为 便捷 和 易于 
实现 ,上 述 体 系 结构 基本 点 正 是 有 鉴于 此 。 

由 于 三 级 模式 结构 使 得 数据 在 计算 机 内 的 表述 与 组 织 对 于 用 户 透 明 , 两 级 映射 提供 了 
数据 的 逻辑 与 物理 独立 性 ,因此 三 级 模式 /两 级 映射 就 成 为 现今 所 有 数据 模式 的 基本 架构 ， 
也 称 为 数据 库 的 三 级 模式 /两 级 映射 的 体系 结构 。 


2.2 关系 数据 库 标 准 语言 


SQL(Structure Query Language, 结 构 化 查询 语言 ) 由 Boyce 和 Chamberlin 在 1974 年 
提出 ,并 在 IBM 开发 的 关系 数据 库 管理 系统 原型 System R 中 予以 实现 。SQL 已 发 展 成 为 
一 个 通用 性 功能 极其 强大 的 关系 数据 库 标 准 语言 ,几乎 所 有 关系 数据 库 都 支持 SQL 。 


2.2.1 SQL 发 展 与 基本 功能 


从 根本 上 来 看 ,计算 机 的 基本 功能 就 是 进行 数据 处 理 和 数据 管理 。 数 据 管理 主要 是 通 
过 查询 技术 对 数据 进行 频繁 访问 。 人 们 使 用 数据 库 的 基本 目的 是 高 效 . 正 确 和 完整 地 查询 
所 需要 的 数据 ,因此 ,数据 库 的 核心 技术 就 是 数据 查询 技术 ,由 此 也 就 决定 了 数据 库 语言 本 
身 不 同 于 一 般 高 级 程序 设计 语言 的 特征 。SQL 正 是 这 样 一 种 能 够 实行 有 效 查询 而 得 到 广 
泛 使 用 的 关系 数据 库 标准 语言 。 在 SQL 发 展 历程 中 ,最 具有 里 程 碑 意 义 的 是 SQL-92 和 
SQL-99, 前 者 集 经 典 关 系数 据 管理 之 大 成 .后 者 开启 了 由 经 典 关系 数据 管理 到 新 型 数据 管 
理 的 历史 性 转变 。 

SQL 具有 下 述 基 本 特点 。 

(1) 非 过 程 操作 。 先 前 各 种 数据 库 语言 与 常规 编程 语言 一 样 ,用 户 需要 着 力 描述 一 项 
操作 的 具体 实现 过 程 , 即 不 仅 告知 系统 “做 什么 ”, 更 要 告知 “如 何 做 ”, 因 此 是 一 种 导航 式 的 
面向 过 程 语言 ; 而 SQL 就 完全 不 同 , 只 要 告知 系统 “做 什么 ”具体 实现 (如 存 取 路 径 和 数据 
操作 过 程 等 ) 完 全 对 用 户 透明 ,因此 是 一 种 面向 结果 的 “ 非 过 程 "语言 ,大 大 拓展 了 关系 数据 
库 的 用 户 面 。 

(2) 面向 集合 处 理 。 各 类 程序 语言 的 每 次 处 理 的 对 象 大 都 是 基于 单个 数据 , 即 “一 次 一 
数据 ”; 而 SQL 每 次 处 理 对 象 是 “元 组 ”的 集合 即 关系 表 , 同 时 输出 结果 也 是 关系 表 , 即 “一 
次 一 集合 ”, 从 而 能 够 简化 相应 的 系统 设计 ,增强 系统 效率 。 

(3) 多 样 使 用 方式 。 能 够 独立 地 用 于 数据 处 理 的 联机 交互 , 即 以 通过 单独 使 用 SQL 完 
成 指定 操作 的 方式 供 数据 库 一 般 用 户 使 用 ,同时 也 能 将 SQL 语句 嵌入 在 其 他 高 级 程序 设计 
语言 (如 C++) 当 中 供 程序 设计 人 员 使 用 。SQL 以 一 种 统一 的 语法 结构 而 提供 多 种 应 用 方 











式 的 做 法 为 实际 应 用 带 来 极 大 的 灵活 性 与 方便 性 。 
(4) 语言 简洁 易学 。 为 了 实现 创建 查询 和 更 新 等 关系 数据 库 的 核心 操作 ,SQL 只 需要 
9 个 动词 即 可 ,各 类 SQL 语句 十 分 接近 于 自然 英语 表达 ,简洁 易 懂 , 如 表 2-1 所 示 。 


表 2-1 SQL 中 动词 关键 字 




















基本 功能 相应 动词 基本 功能 相应 动词 
模式 定义 CREATE, DROP, ALTER 数据 操作 INSERT,DELETE, UPDATE 
数据 查询 SELECT 数据 控制 GRANT,REVOKE 


(5) 高 度 综合 统一 。 前 述 ISBL、ALPHA 和 QBE 主要 具有 查询 和 更 新 机 制 ,但 SQL 却 
具有 完成 数据 库 几 乎 所 有 功能 的 综合 统一 机 制 ,如 数据 库 的 重 构 与 维护 ,完整 性 与 安全 性 ， 
并 发 控制 与 故障 恢复 等 。 

SQL 是 迄今 为 止 最 为 成 功 的 数据 库 语 言 , 被 称 为 “星际 间 的 交流 语言 "。 但 如 前 所 述 ， 
SQL 本 质 上 是 基于 数据 管理 而 非 数据 计算 处 理 的 ,因而 是 一 种 计算 非 完备 语言 ,不 能 独立 
进行 应 用 程序 的 编制 与 运行 。 如 果 进 行 一 般 数 据 处 理 , 需 要 将 SQL 请 名 嵌入 到 常用 的 高 级 
程序 设计 语言 (如 C++ 等 ) 当 中 。 这 既是 SQL 的 缺点 ,也 是 SQL 的 优点 ,因为 将 数据 管理 从 
数据 处 理 计算 中 分 离 出 来 ,就 如 同 将 非 数 值 型 数据 从 数值 型 数据 中 分 离 出 来 一 样 ,是 计算 机 
应 用 观念 和 技术 上 的 一 大 进步 ,因为 两 者 具有 各 不 相同 的 技术 特征 与 应 用 需求 。 

SQL 称 “ 结 构 化 数据 查询 语言 ", 这 只 是 一 种 理论 上 的 逻辑 界定 。 在 实际 操作 过 程 中 ， 
为 了 正确 .完整 和 有 效 地 实施 数据 查询 还 需要 其 他 重要 机 制 的 保驾 护航 。 例 如 ,为 了 保证 数 
据 的 正确 性 就 需要 数据 的 完整 性 和 安全 性 保护 机 制 , 为 了 得 到 数据 的 完整 性 和 一 致 性 就 需 
要 数据 模式 的 规范 化 机 制 ,为 了 保证 数据 共享 性 的 有 效 实现 就 需要 数据 的 并 发 处 理 和 故障 
恢复 等 事务 管理 机 制 。 而 所 有 这 些 数据 查询 的 “辅助 保障 ”功能 都 可 以 由 一 种 统一 的 SQL 
语言 予以 实现 ,这 种 情形 是 其 他 任何 数据 库 操作 语言 所 难以 比肩 的 ,也 是 SQL 重要 价值 与 
基本 意义 的 最 显著 体现 。 


2.2.2 关系 定义 


SQL 中 关系 定义 主要 是 数据 模式 定义 ,包括 下 述 基 本 情形 。 

(1) 定义 数据 库 模式 一 一 数据 库 。 

(2) 定义 关系 模式 一 一 基本 表 。 

(3) 定义 外 模式 一 一 视图 。 

需要 注意 的 是 ,此 时 的 “定义 ”实际 上 包括 “创建 "(CREATE)“ 撤 销 ”(DROP) 和 “修改 ” 
(ALTER)3 项 内 容 。 

为 了 说 明 SQL 数据 操作 的 基本 功能 ,建立 如 前 已 述 的 学 生 课 程 数据 库 模式 S_C。 

(1) 学 生 关 系 表 S: S(Sno,Sname,Ssex,Sage.,Sdept)。 

(2) 课程 关系 表 C: Course(Cno,Cname,Cpno,Ccredit)。 

(3) 学 生 课 程 关 系 表 SC: SC(Sno,Cno,Grade)。 

1. 数据 库 模 式 定义 

在 SQL 标准 中 ,定义 数据 库 ( 模 式 ) 通 过 CREATE DATABASE 语句 实现 。 

【 例 2-1】 创建 学 生 -课程 数据 库 S_C。 
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CREATE DATABASE S_C; 

说 明 : 上 述 语 和 句 定义 了 数据 库 S_C。 

【 例 2-2】 撤销 学 生 - 课 程 数据 库 S_C。 

DROP DATABASE S_C CASCADE; 

说 明 : 上 述 语句 撤销 即 删除 数据 库 S_C。 其 中 ,CASCADE 表示 该 数据 库 中 定义 的 关 
系 表 也 同时 被 删除 。 数 据 库 撤销 语句 的 一 般 形式 为 : 

DROP DATABASE < 数据 库 名 > < CASCADE |RESTRICT > 

说 明 : CASCADE( 级 联 ) 表 示 撤 销 数据 库 模 式 的 同时 把 其 中 所 有 的 数据 库 对 象 全 部 删 
除 ; 而 RESTRICT( 限 制 ) 表 示 如 果 数据 库 中 定义 了 下 属 的 数据 库 对 象 ( 如 表 、 视 图 等 ), 则 
拒绝 该 删除 语句 的 执行 , 即 只 有 当 数 据 库 中 没有 任何 下 属 的 对 象 时 才能 执行 撤销 。 

2. 基本 表 定义 

【 例 2-3〗 建立 “学 生 ” 关 系 表 S, 其 中 主键 为 学 号 ,姓名 取 值 唯一 。 


CREATE TABLE S 


(Sno CHAR(9) PRIMARY KEY, /* 列 级 完整 性 约束 条 件 * / 
Sname CHAR( 20) UNIQUE, /* Sname 取 唯 一 值 */ 
Ssex CHAR(2), 

Sage SMALLINT, 

Sdept CHAR(20) 


); 
【 例 2-4】 建立 一 个 “课程 "关系 表 C。 


CREATE TABLE C 
(Cno CHAR(4) PRIMARY KEY, 
Cname CHAR( 40), 
Cpno CHAR(4), 
Ceredit SMALLINT, 
FOREIGN KEY (Cpno) REFERENCES C (Cno) 
/* 表 级 约束 条 件 , 自 连接 ,Cpno 是 外 键 ,被 参考 表 是 本 表 C* / 
) 


【 例 2-5】 建立 一 个 “学 生 选 课 ” 关 系 表 SC。 


CREATE TABLE SC 
(Sno CHAR(9), 
Cno CHAR( 4), 
Grade SMALLINT, 
PRIMARY KEY (Sno, Cno), 
/* 主键 由 两 个 属性 构成 , 必须 作为 表 级 完整 性 进行 定义 * / 
FOREIGN KEY (Sno) REFERENCES S (Sno), 
/* 表 级 完整 性 约束 条 件 , Sno 是 外 键 ,被 参照 表 是 S* / 
FOREIGN KEY (Cno) REFERENCES C (Cno) 
/* 表 级 完整 性 约束 条 件 ,Cno 是 外 键 ,被 参照 表 是 C* / 
); 


说 明 : 定义 关系 表 时 可 能 需要 同时 定义 完整 性 约束 。 在 SQL 中 ,如 果 一 个 约束 只 针对 


一 个 属性 ,可 以 在 定义 该 属性 的 同时 定义 相应 约束 ,此 时 称 为 列 级 完整 性 约束 ,一 般 情况 下 ， 
非 空 约束 总 是 列 级 约束 ; 如 果 一 个 约束 涉及 多 个 属性 ,需要 在 整个 属性 定义 之 后 再 定义 相 
应 约束 ,此 时 称 为 表 级 完整 性 约束 。 

3. 视图 定义 

【 例 2-6】 建立 计算 机 科学 系 的 学 生 视 图 。 

CREATE VIEW CS_S 

RS 

SELECT Sno, Sname, Sage 


FROM Student 
WHERE Sdept = 'IS'; 


如 需 删 除 视 图 CS_S: 


DROP VIEN CS_S; 


2.2.3 数据 查询 


关系 数据 查询 分 为 单 表 查询 、 基 于 连接 的 多 表 查 询 . 基 于 嵌 套 的 多 表 查 询 3 种 基本 
情形 。 

1. 单 表 查 询 

【 例 2-7】 查询 计算 机 科学 系 (CS) 全 体 学 生 的 名 单 。 

SELECT Sname 

FROM S 

WHERE Sdept = 'CS' 

说 明 : 这 是 一 个 单 表 查询 ,其 特征 是 FROM 子 句 后 面 只 跟 有 一 个 表 名 。 

上 述 语句 称 为 一 个 查询 模块 ,也 称 为 SELECT 语句 ,为 了 便于 理解 ,可 以 认为 其 中 
SELECT 子 句 对 应 关系 代数 中 的 投影 运算 ,FROM 子 句 对 应 连接 运算 ( 当 涉 及 多 个 表 时 )， 
WHERE 子 句 对 应 选择 运算 。 关 键 字 WHERE 之 后 通常 是 一 个 谓词 表达 式 , SQL 标准 中 
主要 的 谓词 如 表 2-2 所 示 。 

表 2-2 SQL 中 基本 谓词 




















查询 条 件 对 应 谓词 
比较 三 ,, 达 ,>=,<=,!=,<>,!>,!<; NOT 十 上述 比较 运算 符 
确定 范围 BETWEEN AND, NOT BETWEEN AND 
确定 集合 IN,NOT IN 
字符 匹配 LIKE, NOT LIKE 
空 值 IS NULL,IS NOT NULL 
多 重 条 件 (逻辑 运算 ) AND,OR,NOT 





2. 基于 连接 的 多 表 查 询 
【 例 2-8】 查询 每 个 学 生 及 其 选修 课程 的 情况 。 


SELECT Student. * ,SC. * 
FROM Student JOIN SC ON Student.Sno = SC.Sno; 
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说 明 : 上 述 语句 实际 上 是 一 个 等 值 连接 查询 ,如 果 需 要 实现 自然 连接 查询 , 则 可 改写 为 : 


SELECT Student. Sno, Sname, Ssex, Sage, Sdept, Cno, Grade 

FROM Student NATURAL JOIN SC; 

说 明 : 自然 连接 是 在 两 张 表 中 寻找 那些 数据 类 型 和 列 名 都 相同 的 字段 ,然后 自动 地 将 
它们 连接 起 来 ,并 返回 所 有 符合 条 件 的 结果 。 

3. 基于 嵌 套 的 多 表 查 询 

嵌 套 查询 分 为 不 相关 子 查 询 和 相关 子 查询 两 种 方式 。 

【 例 2-9】 查询 选修 了 课程 名 为 “DB” 的 学 生 学 号 和 姓名 。 


SELECT Sno, Sname /* @ 最 后 在 Student 关系 中 取出 Sno 和 Sname*/ 
FROM Student 
WHERE Sno IN 
(SELECT Sno /*@ 然后 在 SC 关系 中 找 出 选修 了 DB 课程 号 的 学 生 学 号 * / 
FROM SC 
WHERE Cno IN 
(SELECT Cno  /*O 首先 在 c 中 找 出 "DB" 的 课程 号 * / 
FROM C 


WHERE Cname = 'DB' 
) 
); 
说 明 : 首先 这 是 一 个 三 层 不 相关 多 行 子 查询 ,其 特征 是 内 层 查询 不 依赖 外 层 查询 ,是 一 
个 可 以 单独 运行 的 查询 模块 ,系统 是 “由 内 向 外 ”执行 相应 操作 。 其 次 ,每 一 个 子 查询 可 能 会 
返回 多 行 结果 ,所 以 条 件 表达 时 只 能 用 多 行 集合 关键 字 “IN” 或 “not IN”, 而 不 能 用 单行 运算 
符 “ 二 ”或 “1 一 ”。 
【 例 2-10】 找 出 每 个 学 生 超过 他 选修 课程 平均 成 绩 的 课程 号 。 
SELECT Sno, Cno 
FROM SC x 
WHERE Grade > = (SELECT AVG(Grade) 
FROM SCy 
WHERE Y. Sno = x. Sno); 
说 明 : 这 是 一 个 相关 单行 子 查询 ,其 中 内 层 查询 依赖 于 外 层 查 询 中 涉及 的 关系 表 。 
一 般 来 说 ,如 果 一 个 多 表 查 询 的 最 终 输出 结果 涉及 多 个 表 的 属性 列 , 此 时 ,只 能 使 用 连 
接 查询 而 不 能 使 用 赃 套 查询 ,这 是 因为 嵌 套 查询 中 子 查询 模块 必须 是 单列 查询 。 一 般 而 言 ， 
通常 幅 套 查询 也 可 以 由 连接 查询 实现 ,但 不 是 所 有 连接 查询 都 可 由 嵌 套 查询 实现 。 
【 例 2-11】 设 有 如 下 嵌 套 查询 : 
SELECT Sname 
FROM Student 
WHERE EXISTS 
(SELECT * 
FROM SC 
WHERE Sno = Student. Sno AND Cno= "1 
) 


还 可 以 转换 为 如 下 连接 查询 : 
SELECT Sname 


FROM Student, SC 
WHERE Student. Sno = SC. Sno AND SC.Cno= '1'; 


2.2.4 数据 更 新 


数据 更 新 分 为 数据 插入 、 数 据 删除 和 数据 修改 3 种 情形 。 


1. 数据 插 人 
SQL 中 有 插 和 人 元 组 和 插 人 子 查询 结果 两 种 方式 。 


【 例 2-12】 将 一 个 新 学 生 元 组 (学 号 : 201215128; 姓名 : Raul; 性 别 : male; 所 在 系 : 


CS; 年 龄 : 18 岁 ) 插 入 到 S 表 中 。 


INSERT 
INTO S (Sno, Sname, Ssex, Sdept, Sage) 
VALUES ('201215128', 'Raul', 'male', 'CS', 18); 


【 例 2-13】 对 每 一 个 系 ,求学 生 的 平均 年 龄 ,并 把 结果 存 和 数据库 。 


首先 ,定义 相应 关系 表 Dept_age。 


CREATE TABLE Dept_age 
(Sdept CHAR(15) /< 系 名 */ 
Avg_age SMALLINT /* 学 生平 均 年 龄 x*/ 
); 


其 次 ,向 Dept_age 插入 数据 。 


INSERT 

INTO Dept_age(Sdept,Rvg_age) 
SELECT Sdept, AVG( Sage) 
FROM Student 
GROUP BY Sdept; 


说 明 : 在 插入 子 查询 结果 时 ,要 求 子 查询 返回 的 结果 列 与 目标 列 从 左 至 右 在 数量 和 数 


据 类 型 上 一 一 对 应 ,可 以 有 多 行 。 


2. 数据 删除 
【 例 2-14】 删除 CS 中 所 有 学 生 的 选课 记录 。 
DELETE 
FROM SC 
WHERE 'CS' = (SELETE Sdept 
FROM Student 
WHERE Student. Sno = SC. Sno 
); 
DELETE 
FROM SC 
WHERE Sno IN (SELETE Sno 


FROM Student 
WHERE Sdept = 'CS') 
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3. 数据 修改 
【 例 2-15】 将 计算 机 科学 系 全 体 学生 的 成 绩 置 零 。 
UPDATE SC 
SET Grade=0 
WHERE 'CS' = (SELETE Sdept 
FROM Student 


WHERE Student. Sno = SC.Sno 


) 
UPDATE SC 
SET Grade=0 
WHERE Sno IN (SELETE Sno 
FROM Student 
WHERE Sdept = 'CS') 


2.3 关系 模式 设计 


如 前 所 述 ,关系 数据 模式 设计 就 是 关系 数据 库 逻 辑 设计 ,主要 是 针对 具体 问题 ,如 何 构 
造 一 个 适合 于 它 的 数据 模式 ,这 就 需要 建立 关系 模式 设计 的 规范 化 理论 。 

在 实际 应 用 问题 中 ,需要 将 客观 实体 的 各 种 基本 特征 抽象 为 多 种 属性 ,然后 再 将 这 些 属 
性 构成 相应 关系 模式 。 实 际 中 抽象 出 来 的 多 种 属性 不 能 简单 地 次 成 几 个 关系 模式 ,不 能 将 
有 关联 和 没有 关联 的 ,以 及 有 ”" 强 关联 ”和 * 弱 关联 ?的 不 同属 性 随意 组 成 关系 表 , 这 样 会 带 来 
数据 元 余 , 而 元 余 会 引发 数据 异常 。 因 此 ,需要 描述 和 研究 所 得 到 属性 之 间 的 关联 ,这 种 关 
联 就 是 数据 依赖 。 数 据 依赖 是 关系 模式 内 部 属性 之 间 的 约束 关系 ,作为 现实 世界 中 实体 特 
征 相 互 间 联系 的 抽象 , 它 反 映 了 数据 的 内 在 性 质 , 是 数据 语义 的 实际 体现 。 数 据 依赖 主要 有 
函数 依赖 (Functional Dependency,FD) 、 多 值 依赖 (Multivalued Dependency, MVD) 和 连接 
依赖 (Join Dependency,JD) 。 

【 例 2-16】 高 校 教 务 管理 的 应 用 中 ,需要 描述 “学 生 学 号 ”(Sno)、“ 所 在 系 ”(Sdept)、 
“ 系 主任 姓名 ”(Mname) “课程 名 ”(Cname) 和 “成 绩 ”(Grade) 等 属性 ,可 以 将 其 简单 地 组 成 
一 个 关系 模式 Student <U.、F >。 


属性 组 : U = {Sno, Sdept, Mname, Cname, Grade} 


U 上 了 抑 数 依赖 F: 下 ={Sno~~Sdept,Sdept>Mname,(Sno,Cname) 一 Grade} ,此 时 就 会 
产生 大 量 数据 元 余 , 由 此 将 会 导致 插入 异常 (Insertion Anomalies)、 删 除 异常 (Deletion 
Anomalies) 和 更 新 异常 (Update Anomalies) ,导致 数据 不 一 致 性 。 

而 关系 模式 设计 ( 即 规范 化 理论 ) 正 是 用 来 改造 关系 模式 ,通过 分 解 关系 模式 来 消除 其 
中 不 合适 的 数据 依赖 ,以 解决 插入 异常 .删除 异常 更 新 异常 和 数据 元 余 问 题 。 


2.3.1 和 函数 依赖 


函数 依赖 是 最 基本 的 数据 依赖 。 

函数 依赖 ; 设 R(U) 是 一 个 属性 集 U 上 的 关系 模式 ,X 和 Y 是 U 的 子 集 。 若 对 于 RC(U) 
的 任意 一 个 可 能 的 关系 r,r 中 不 可 能 存在 两 个 元 组 在 X 上 的 属性 值 相 等 ,而 在 Y 上 的 属性 
值 不 等 , 则 称 "X 函数 确定 Y” 或 “Y 函数 依赖 于 X”, 记 作 XY。 其 中 XX 称 为 决定 因素 属性 


组 ,Y 称 为 依赖 因素 属性 组 。 

函数 依赖 可 以 分 为 平凡 与 非 平 凡 、 部 分 与 完全 及 传递 与 直接 函数 依赖 3 种 情形 。 

1. 平凡 函数 依赖 与 非 平凡 函数 依赖 

如 果 XY, 但 Y cX , 则 称 XY 是 非 平凡 的 函数 依赖 ; 若 X-Y, 但 Y cX , 则 称 X 一 Y 
是 平凡 的 函数 依赖 。 

【 例 2-17】 在 关系 SC(Sno,Cno,Grade) 中 有 以 下 两 种 情形 。 

(1) 平凡 函数 依赖 : (Sno,Cno) 一 Sno(Sno,Cno) 一 Cno。 

(2) 非 平凡 函数 依赖 : (Sno,Cno) 一 Grade。 

2. 完全 函数 依赖 与 部 分 函数 依赖 

在 RU) 中 ,如 果 X-Y, 并 且 对 于 X 的 任何 一 个 真子 集 X“ ,都 有 XX 六 Y, 则 称 了 对 和 X 


完全 函数 依赖 , 记 作 X -一 ~Y。 


若 X-=Y, 但 Y 不 完全 函数 依赖 于 X, 则 称 Y 对 X 部 分 函数 依赖 , 记 作 X 一 >Y。 

【 例 2-18】 在 例 2-17 中 ,(Sno,Cno) 一 Grade 是 完全 函数 依赖 ,(Sno,Cno) 习 Sdept 是 
部 分 函数 依赖 ,这 是 因为 Sno 习 Sdept 成 立 , 且 Sno 是 (Sno,Cno) 的 真子 集 。 

3. 传递 函数 依赖 与 直接 函数 依赖 


在 RO 中 ,如 XY,(Y CX),Y>XY>Z, 则 称 Z 对 X 传递 丽 数 依赖 。 记 作 : X 上 时 z， 
否则 ,就 称 为 Z 对 X 直接 依赖 。 

注意 : 如 果 Y-~X, 即 X< 一 Y, 则 Z 直 接 依赖 于 X。 

【 例 2-19】 在 关系 Std(Sno, Sdept, Mname) 中 ,有 Sno Sdept, Sdept 一 Mname, 则 
Mname 传递 函数 依赖 于 Sno。 


2.3.2 公理 系统 及 有 效 性 和 完备 性 


如 前 所 述 “ 平 凡 依赖 交 部 分 依赖 ”和 "传递 依赖 ?是 产生 数据 宛 余 的 主要 原因 ,因此 , 消 
除数 据 元 余 的 途径 就 是 找 出 给 定 属性 集合 上 的 所 有 函数 依赖 ,对 其 中 能 够 产生 数据 元 余 的 
函数 依赖 进行 适当 处 理 。 由 函数 依赖 概念 给 定 属性 集合 上 的 函数 依赖 个 数 与 该 属性 集合 的 
寡 集 相关 ,这 样 就 需要 使 用 计算 机 “计算 ?函数 依赖 。 函 数 依赖 是 语义 概念 ,计算 机 能 够 处 理 
的 问题 实际 上 是 基于 语法 的 ,需要 将 函数 依赖 的 语义 问题 转化 为 相应 语法 问题 才能 交 由 计 
算 机 处 理 ,然后 再 将 处 理 后 的 语法 问题 转 回 语义 问题 供用 户 使 用 。 这 里 需 讨 论 下 述 课 题 。 

g@ 构建 一 种 语法 的 公理 系统 以 完成 语义 和 语法 相互 转换 。 

@ 证 明 这 种 “语义 ”和 “语法 ”的 来 回转 化 是 否 “ 等 价 ”, 也 就 是 说 语义 转 为 语法 ,语法 再 
转 回 语义 得 到 的 是 否 就 为 原来 意义 下 所 需要 的 结果 。 

显然 ,这 不 仅 是 在 关系 数据 理论 范畴 ,就 是 在 整个 计算 机 科学 技术 领域 都 具有 意义 和 充 
满 挑 战 。 幸 运 的 是 ,人 们 在 关系 数据 库 中 较 好 地 解决 并 处 理 上 述 课题 ,形成 了 关系 数据 模式 
设计 规范 化 的 重要 理论 基础 。 

针对 四 ,人 们 建立 了 著名 的 Armstrong 公理 系统 ; 针对 加 ,人们 严格 证 明了 Armstrong 
公理 系统 的 有 效 性 和 完备 性 。 

1 函数 依赖 集 的 闭 包 ， 

研究 函数 依赖 是 解决 数据 元 余 的 重要 课题 ,其 中 就 是 要 在 RCU) 中 找 出 其 函数 依赖 。 | 章 
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对 于 给 定 关系 模式 R(U) ,理论 上 总 有 函数 依赖 存在 ,如 平凡 函数 依赖 和 由 候选 键 确定 的 函 
数 依赖 。 因 此 ,人 们 通常 会 比较 容易 地 指定 一 些 语义 明显 的 函数 依赖 以 构建 一 个 函数 依赖 
集合 下 ,以 下 作为 讨论 R(U) 上 “所 有 ”函数 依赖 的 初始 基础 。 因 此 ,需要 研究 如 何 通过 已 知 
初始 函数 依赖 集合 下 得 到 其 他 未 知 函 数 依赖 。 

【 例 2-20〗 设 有 关系 模式 RC(U),X、Y、ZSU,A、BEU。 已 知 X 一 {A,B}、X>Y 和 
YZ 是 R(U) 上 非 平 凡 函数 依赖 。 按 照 函数 依赖 概念 可 得 函数 依赖 X 一 {A} 和 X 一 {B); 
按照 传递 依赖 概念 可 得 函数 依赖 XZ。 此 时 ,函数 依赖 X 一 {A}、X 一 {B} 和 X 一 Z 并 不 直 
接 显现 在 问题 当中 ,而 是 按照 一 定 规则 (函数 依赖 和 传递 函数 依赖 概念 ) 由 已 知 函 数 依赖 * 推 
导 ” 出 来 。 将 此 一 般 化 ,就 是 如 何 由 已 知 的 函数 依赖 集合 下 ,推导 出 新 的 函数 依赖 。 

为 了 表述 简洁 和 推理 方便 ,对 有 关 记 号 使 用 做 如 下 约定 。 

(1) 如 果 XY 等 是 U 的 属性 子 集 ,并 集 XUY 简 记 为 XY。 

(2) 如 果 A、B 等 是 U 中 的 属性 , 则 集合 {(A,B} 简 记 为 AB。 

(3) 如 果 X 是 属性 集 ,A 是 属性 ,将 并 集 XU {A} 简 记 为 XA 或 AX。 

以 上 针对 两 个 对 象 情形 ,对 于 多 个 对 象 情 形 也 做 类 似 约定 。 

(4) 在 给 定 初始 函数 依赖 集合 下 时 ,关系 模式 R(U) 根 据 需 要 有 了 时 记 为 R(U ,FF)。 

下 面 先 说 明 由 函数 依赖 集 F* 推 导 ” 出 函数 依赖 的 确切 含义 。 

O@ 函数 依赖 集合 下 的 逻辑 蕴含 。 设 有 关系 模式 RCU,F),X、YCSU ,车 RR 中 每 个 满足 下 
中 函数 依赖 的 关系 实例 x 也 满足 X 一 Y, 则 称 下 逻辑 蕴含 X-Y, 记 为 下 上 X-~Y。 

考虑 到 下 所 蕴含 的 所 有 函数 依赖 ,就 得 到 函数 依赖 集合 闭 包 的 概念 。 

@ 函数 依赖 集合 下 的 闭 包 。 设 下 是 函数 依赖 集合 ,被 下 逻辑 蕴含 的 函数 依赖 的 全 体 
构成 的 集合 , 称 为 函数 依赖 集 下 的 闭 包 (Closure) , 记 为 FE+ , 即 

Ft+={XY|F FX—Y} 
显然 有 FSF+ 。 如 果 还 有 下 =F+ , 则 称 下 是 函数 依赖 的 完备 集合 。 

按照 上 述 定义 ,由 已 知 函数 依赖 集 下 求 得 新 函数 依赖 问题 可 以 归结 为 求 下 的 闭 包 F!。 
但 根据 函数 依赖 定义 完成 这 项 工作 却 相当 困难 ,这 主要 是 因为 属性 间 函 数 依赖 关系 存在 与 
否 完 全 取决 于 数据 的 语义 。 例 如 ,对 于 一 个 教师 来 说 ,如 果 只 允许 有 一 个 电子 邮箱 , 则 教师 
工 号 确定 后 ,其 电子 邮箱 地 址 也 随 之 确定 , 即 电子 邮箱 地 址 函数 依赖 于 教师 工 号 。 但 如 果 教 
师 有 多 个 电子 邮箱 , 则 上 述 函 数 依赖 就 不 存在 。 确 定 属性 间 函 数 依赖 ,需要 仔细 研究 数据 语 
义 ,不 能 仅仅 根据 当前 数据 值 进 行 归 纳 , 更 不 能 “想当然 "。 请 义 问题 涉及 问题 较 多 ,在 实际 
情况 中 ,人 们 难以 从 语义 方面 得 到 所 需要 的 各 种 新 的 函数 依赖 ,更 难以 保证 没有 遗漏 地 得 到 
能 由 下 所 人 逻辑 蕴含 的 “所 有 ”函数 依赖 。 

数理 逻辑 提供 了 解决 问题 的 思路 , 那 就 是 先 将 语义 求解 考虑 转换 到 语法 求解 机 制 上 去 ， 
将 “逻辑 列 含 ?转换 为 “逻辑 推导 ”, 然 后 再 讨论 两 者 的 “等 价 性 ”, 即 通常 所 说 的 有 效 性 与 完备 
性 。 这 种 基本 考虑 在 关系 模式 设计 理论 中 就 体现 为 基于 Armstrong 公理 系统 的 函数 依赖 
推导 原理 。 

2. Armstrong 公理 系统 

为 了 建立 基于 函数 依赖 的 语法 系统 ,从 而 求 得 已 知 函 数 依赖 集合 下 的 闭 包 FE+ ,W. W. 
Armstrong 于 1974 年 提出 了 一 套 推导 规则 。 使 用 这 套 规则 ,可 以 由 已 有 函数 依赖 “逻辑 推 
导 ” 出 新 的 函数 依赖 。 后 来 经 过 不 断 完善 ,形成 了 著名 的 “Armstrong 公理 系统 ”, 为 关系 模 





式 设计 提供 了 一 个 有 效 并 且 完 备 的 理论 基础 。 

1) 基本 公理 与 推理 规则 

在 下 面 描述 的 形式 系统 中 ,诸如 X-~~Y 之 类 的 函数 依赖 公式 都 看 作 “ 形 式 公 式 ”, 这 种 形 
式 公式 和 基于 公理 系统 的 形式 推导 (逻辑 推导 ) 在 数理 逻辑 中 比较 常见 。 

(1) 基本 公理 。Armstrong 公理 系统 有 3 条 基本 公理 (推理 规则 ) 。 

@ Ai,( 自 反 律 ,reflexivity) : 如 果 YSXSU, 则 XY。 

@ A; ( 增 广 律 ,augmentation) : 如 果 X-=Y 在 RU) 上 成 立 , 且 ZEU, 则 XZ 一 YZ 。 

@ Ai (传递 律 ,transitivity) : 如 果 XY 和 Y-~Z 成 立 , 则 X 一 2Z。 

作为 一 个 公理 系统 ,还 应 有 相应 的 推理 规则 和 公式 (递归 ) 定 义 , 本 书 不 讨论 这 些 内 
容 。 下 面 只 需 应 用 一 些 基本 的 推理 规则 ,并 将 给 定 的 初始 函数 依赖 集合 下 的 函数 依赖 看 
作 “ 形 式 ” 公 式 。 之 所 以 称 为 “形式 ”公式 ,主要 是 因为 在 相关 讨论 中 并 不 涉及 这 些 公式 的 
语义 , 仅 将 其 看 作 一 些 符 号 的 组 合 , 而 形式 公式 正 是 数理 逻辑 中 语法 系统 研究 的 对 象 。 
通常 需要 按照 上 述 3 条 公理 ,依据 推理 规则 ,由 下 中 “形式 ”公式 “逻辑 推导 ”出 新 的 “形式 ” 
人 公式。 如果“ 形式 ”公式 Q 可 通过 Armstrong 公理 系统 由 “形式 ”公式 P“ 人 逻辑 推导 ”得 到 , 则 
记 为 PFQ。 

(2) 推理 规则 。 以 Armstrong 基本 公理 A 、As 和 As 为 基础 ,可 以 得 出 下 面 5 条 推理 
规则 ,当然 ,这 些 规则 的 “结论 ”公式 也 是 “形式 ”公式 。 

【定理 2-1】 下 述 论断 成 立 。 

Q@ A, (合并 性 规则 ,union) : {XY,X 一 Z) 上 FX 一 YZ。 

@ Ai (分 解 性 规则 ,decomposition) : {XY ,ZSCY}) 上 FX 一 Z。 

@ As( 拟 传递 性 规则 ,pseudotransivity): {X-=Y,WY-~Z) FWX 一 Z。 

@ A; (复合 性 规则 ,composition rule): {X-Y ,多 一 Z) FWX 一 YZ。 

@ As (通用 一 致 性 规则 ,general unification rule) : {X-Y,W 一 Z) 上 FX(W 一 Y)>YZ。 

【 例 2-21】 由 合并 性 规则 A, 和 分 解 性 规则 As ,可 以 得 到 如 下 结论 。 

如 果 A,A:…A, 是 关系 模式 R(U) 的 属性 集 , 则 X-~A,A:…A, 的 充分 必要 条 件 是 X 一 A; 
(i 二 1,2,…,n) 成 立 。 

3. 有 效 性 和 完备 性 

如 果 由 下 出 发 根据 Armstrong 公理 逻辑 推导 出 的 每 一 个 “形式 ”公式 X 一 Y 作为 “函数 
依赖 "XY 都 在 F? 当中 , 则 称 Armstrong 公理 系统 是 有 效 的 。 

如 果 F* 中 每 个 函数 依赖 X>Y 都 可 以 通过 将 下 中 元 素 作为 “形式 ”公式 ,由 此 青 根据 
Armstrong 公理 系统 “逻辑 推导 ?而 得 到 , 则 称 Armstrong 公理 系统 是 完备 的 。 

公理 系统 的 有 效 性 保证 了 所 有 人 逻辑 推导 出 的 “形式 ”公式 作为 函数 依赖 都 是 语义 为 真 ， 
即 逻 辑 推 导出 的 形式 公式 都 是 函数 依赖 ; 公理 系统 的 完备 性 保证 了 可 以 逻辑 推导 出 所 有 可 
能 的 函数 依赖 , 即 所 有 函数 依赖 都 可 以 由 逻辑 推导 得 到 ,或 者 说 不 能 用 公理 系统 逻辑 推导 的 
函数 依赖 都 不 能 为 真 。 

1) Armstrong 公理 系统 的 有 效 性 

【定理 2-2】 Armstrong 公理 系统 具有 有 效 性 。 

证 明 : 所 有 由 Armstrong 公理 系统 逻辑 推导 的 所 有 公式 的 有 效 性 取决 于 系统 中 Al As 
和 As 三 公理 的 结论 公式 是 否 具有 有 效 性 。 因 此 只 需 按 照 F+ 概 念 ,证 明 当 3 条 公理 条 件 中 





关系 数据 府 基 而 


地 四 


高 级 数据 府 基 础 才 程 





的 “形式 ”公式 属于 下 时 ,相应 3 条 结论 的 “形式 ”公式 属于 Fi 即 可 。 

(1) 自 反 律 A 。 因 为 在 任何 一 个 关系 中 不 可 能 存在 两 个 元 组 在 属性 X 上 的 值 相 等 而 
在 X 的 某 个 子 集 Y 上 的 值 不 相等 ,所 以 自 反 律 结论 公式 属于 F* 。 

(2) 增 广 律 As 。 反 设 如 果 关 系 模式 R(U) 中 某 个 关系 7 中 存在 两 个 元 组 t 和 s 违反 了 
XZ—YZ , 即 tLXZ]=sLXZ]=>tLYZ JAsLYZ ]。 

由 zXZ]==sLXZj 过 tLXj==sLXj 和 zL2Z] 关 SLZ]。 由 tL[YZj] 关 ;LYZ] 过 tLYj 关 sLY]J 或 
t[2Z] 关 sL[Zj]。 如 果 t[Y] 了 SLY], 结 合 tLXj 二 sLXj, 与 XY 成 立 矛 盾 , 而 tL2Z] 了 关 sLZj 不 
可 能 成 立 。 这 样 就 与 增 广 律 条 件 “X 一 Y 在 R(U) 上 成 立 ” 蔬 盾 , 所 以 增 广 律 结论 公式 属 
下 

(3) 传递 律 A;。 反 设 R(U) 的 某 个 关系 实例 + 中 存在 两 个 元 组 上 和 s 违反 了 XZ, 即 
tLXj 二 sLXj, 但 tL[Zj 关 5[Z]。 而 对 于 tL[Y] 和 sLYj 来 说 ,只 能 有 下 述 两 种 情形 。 

@ 如 果 zt[Yj 关 s[Y]J], 则 与 XY 成 立 矛 盾 。 

@ 如 果 t[Y]==s[Y] 而 i[2Zj 关 [2Z], 就 与 YZ 成 立 矛 盾 。 

无 论 哪 种 情况 都 导致 矛盾 ,由 此 可 知 传递 律 的 结论 公式 属于 Fr 。 

2) Armstrong 公理 系统 的 完备 性 

为 证 明 Armstrong 公理 系统 的 完备 性 , 需 引 入 基于 初始 函数 依赖 集合 下 的 属性 集合 X 
的 闭 包 概 念 。 

属性 闭 包 : 设 下 是 属性 集合 U 上 的 一 个 函数 依赖 集 ,XSU , 称 

X= 二 {AI1AEU,X 一 A 由 下 按照 Armstrong 公理 系统 推导 得 到 } 
为 属性 集 X 关 于 FF 的 闭 包 。 这 里 ,可 以 将 属性 A 看 作 U 中 的 单 属性 子 集 。 

如 果 问 题 讨论 过 程 中 只 涉及 一 个 确定 函数 依赖 集 下 ,就 无 须 对 函数 依赖 集 进 行 区 分 , 属 
性 集 X 关 于 下 的 闭 包 可 简 记 为 X* 。 需 要 注意 的 是 ,总 有 XSX-SU。 

例如 , 设 有 关系 模式 RCU,E) ,其 中 U=ABC,F=14~B,B 一 C) ,按照 属性 集 闭 包 概 
念 , 则 有 A+ =ABC,B+=BC,Ct+ 一 C。 

【定理 2-3】 Armstrong 公理 系统 具有 完备 性 质 。 

证 明 : 只 需 证 明 “ 不 能 由 下 使 用 Armstrong 公理 系统 推导 的 函数 依赖 不 在 F+ 中 ”。 

设 下 是 属性 集合 U 上 的 一 个 函数 依赖 集合 ,并 设 X 一 Y 不 能 从 下 通过 Armstrong 公理 
系统 推导 出 来 。 需 要 证 明 ,在 题 设 之 下 ,XY 不 在 F+ 当中 , 即 至 少 存在 一 个 关系 7 满足 
下 ,但 不 满足 X 一 Y。 证 明 分 为 如 下 三 步 进 行 。 

首先 ,具体 构造 +。 设 x 由 两 个 元 组 ti 和 zs 组 成 ,其 中 ,4 在 U 中 全 部 属性 上 取 值 都 为 
1,ts 在 X* 属 性 上 取 值 为 1, 而 在 其 他 属性 上 取 值 为 0, 如 表 2-3 所 示 。 


表 2-3 ”关系 实例 ~ 的 构造 











X* 中 属性 值 U\X* 中 属性 值 
元 组 11…1 11…1 
元 组 11…1 00…0 








其 次 ,证 明 满 足下, 即 关系 实例 r 满足 下 中 所 有 函数 依赖 。 
设 Xe 一 Yo 是 下 中 任意 一 个 函数 依赖 ,分 以 下 两 种 情况 考虑 。 
@ 如 果 XeSX+ , 则 可 知 X 一 X。。 再 由 假设 Xu 一 Yo ,根据 传递 律 A: ,得 到 X- 一 Yo ,从 


而 YoSX(1)*。 按 照 关 系 实例 rr 定义 ,可 知 其 在 X 中 属性 值 都 相等 。 由 Xo。 导 X* 可 知 
[Xoj]=tz[Xoj]; 由 YX+ 可 知 [Yoj]=ts[Yoj], 于 是 Xo 一 Yo 在 r 上 成 立 。 

@ 如 果 Xo。 壬 X1 , 即 Xo 中 含有 X+ 之 外 的 属性 。 由 关系 实例 ~ 一 {4 ,ts}) 定 义 ,t[Xoj 关 
如 LXo]。 由 数理 逻辑 关于 蕴含 式 取 真 值 的 理论 ,Xe 一 Yo 自然 成 立 。 

由 上 述 和 @ 可 知 ,关系 实例 r 满足 下 中 的 每 个 函数 依赖 。 

最 后 ,证 明 对 于 关系 实例 r,X>Y 不 成 立 。 

由 题 设 XY 不 能 基于 下 通过 Armstrong 公理 逻辑 推导 得 出 。 按 照 X+ 定 义 , 可 以 得 
到 YX+ 。 由 关系 实例 /构造 和 XSX+ 可 知 4[Xj]==t[Xj]; 由 Y 壬 Xt+ 可 知 [Yj 冯 ts [Y]。 
由 此 ,XY 在 r+ 上 不 成 立 。 这 样 就 证 明 , 只 要 XY 不 能 从 下 通过 Armstrong 公理 逻辑 推 
导 得 出 ,F 就 不 能 逻辑 蕴含 XY。 


2.3.3 关系 模式 范式 


范式 是 符合 某 一 种 级 别 要 求 的 关系 模式 集合 。 关 系数 据 库 中 的 关系 必须 满足 一 定 的 要 
求 。 满 足 不 同 程度 的 要 求 就 形成 了 不 同 的 范式 。 某 一 关系 模式 R 为 第 范式 ,可 简 记 为 
REnNF。 一 个 低 一 级 范式 的 关系 模式 ,通过 模式 分 解 可 以 转换 为 若干 个 高 一 级 范式 的 关 
系 模式 的 集合 ,这 个 过 程 就 称 为 规范 化 。 

1) 第 一 范式 

如 果 一 个 关系 模式 R 的 所 有 属性 都 是 不 可 分 的 基本 数据 项 , 则 RE1NF。1NF 是 对 关 
系 模式 的 关键 要 求 。 不 满足 1NF 的 数据 库 模 式 不 能 称 为 关系 数据 库 。 对 于 不 满足 1NF 的 
关系 模式 ,需要 将 不 满足 原子 性 要 求 的 属性 "分 解 ?成 为 满足 原子 性 的 多 个 属性 。 

2) 第 二 范式 

满足 1NF 的 关系 模式 并 不 一 定 是 一 个 好 的 关系 模式 。 

【 例 2-22】 关系 模式 S-L-C(Sno,Cno,Sdept,Sloc,Grade) , 键 属性 为 Sno 和 Cno 组 合 属性 。 

其 中 ,Sloc 为 学 生 住处 ,假设 每 个 系 的 学 生 住 在 同一 个 地 方 。 


到 1 
函数 依赖 包括 (Sno, Cno) 一 >Grade, Sno 习 Sdept, (Sno, Cno) 一 > Sdept, Sno Sloc，, 





Conov Cho Slo Sap Sl. 
这 里 , 非 主 属性 Sdept、Sloc 部 分 函数 依赖 于 键 ,这 将 导致 数据 宛 余 ,出 现 操 作 异 常 。 解 
决 方法 是 将 S-L-C 分 解 为 SC(Sno,Cno,Grade) 和 S-L(Sno,Sdept,Sloc) 两 个 关系 模式 ,以 
若 REINF, 且 每 一 个 非 主 属性 都 是 完全 函数 依赖 于 键 , 则 RE2NF。 如 果 关 系 RR 的 键 
只 有 单一 一 个 属性 , 它 就 一 定 符合 第 二 范式 (前 提 是 该 关系 模式 符合 第 一 范式 ) 。 
【 例 2-23】 
S-L-C(Sno,Cno.Sdept, Sloc.Grade) € INF 
S-L-C(Sno,Cno. Sdept, Sloc.Grade) ¢ 2NF 
SC(Sno,Cno,Grade) E2NF 
S-L(Sno,Sdept,Sloc) E€2NF 











3) 第 三 范式 
关系 模式 R<U,F > 中 若 不 存在 这 样 的 键 X、 属 性 组 Y 及 非 主 属性 Z(Z 生 Y) ,使 得 
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X-Y,Y-~~2Z 成 立 , 则 称 R<U,F>E3NF。 

RE3NF, 必 有 RE2NF。 

当 RE 3NF 时 , 则 每 一 个 非 主 属性 既 不 部 分 依赖 于 键 也 不 传递 依赖 于 键 。 

【 例 2-24】 2NF 关系 模式 S_L(Sno,Sdept,Sloc) 中 有 函数 依赖 Sno>Sdept、Sdept 一 
Sloc 和 Sno 一 Sloc。 此 时 ,Sno>Sloc 是 S_L 中 非 主 属性 对 键 的 传递 函数 依赖 ,S_L 不 属于 
3NF。 违 反 3NF 的 关系 模式 同样 会 导致 数据 元 余 ,出 现 操作 异常 。 解 决 方法 采用 投影 分 解 
法 ,把 S_L 分 解 为 S_D(Sno,Sdept) 和 D_L(Sdept,Sloc) 两 个 关系 模式 ,以 消除 传递 函数 依 
赖 。 此 时 ,S_D 的 键 为 Sno,D_L 的 键 为 Sdept, 两 者 都 不 青 存在 传递 依赖 。 

4) BC 范式 

关系 模式 R<U,F >E1NF, 车 XY 且 Y 生 X 时 ,X 必 含 有 键 , 则 R<U,F >€ BCNF。 
R<U,F >E BCNF 等 价 于 每 一 个 决定 因素 属性 组 都 包含 主键 。 当 RE BCNF 时 ,所 有 非 主 
属性 对 每 一 个 键 都 是 完全 函数 依赖 ; 所 有 的 主 属性 对 每 一 个 不 包含 它 的 键 ,也 是 完全 函数 
依赖 ; 没有 任何 属性 完全 函数 依赖 于 非 键 的 任何 一 组 属性 。 

REBCNF 必 有 RE3NF。 

当 RE3NF, 且 R 只 有 一 个 候选 键 时 , 则 RE BCNF。 

目前 关系 数据 库 有 6 级 范式 : 第 一 范式 (1NF)、 第 二 范式 (2NF)、 第 三 范式 (3NF)、 巴 
斯 - 科 德 范式 (BCNF) .第 四 范式 (4NF) 和 第 五 范式 (5NF, 又 称 完美 范式 )。 满 足 最 低 要 求 的 
范式 是 第 一 范式 (INF)。 在 第 一 范式 的 基础 上 进一步 满足 更 多 规范 要 求 的 称 为 第 二 范式 
(2NF) ,其 余 范式 依次 类 推 。 后 面 继续 探讨 4NF 和 5NF 原理 。 


2.3.4 多 值 依赖 与 连接 依 环 


在 关系 模式 中 ,数据 之 间 存 在 一 定 的 依赖 或 联系 ,对 这 种 联系 处 理 适当 与 否 直 接 关系 到 
模式 中 数据 元 余 情 况 。 多 值 依赖 和 连接 依赖 是 更 为 一 般 的 数据 依赖 联系 。 

1. 多 值 依 赖 与 4NF 

函数 依赖 实质 上 反映 的 是 “多 对 一 ”联系 ,在 实际 应 用 中 还 会 有 “一 对 多 ”形式 的 数据 
联系 ,诸如 此 类 不 同 于 函数 依赖 的 数据 联系 也 会 产生 数据 元 余 , 从 而 引发 各 种 数据 异常 
现象 。 

【 例 2-25】 设 有 一 个 课程 安排 关系 ,如 表 2-4 所 示 。 


表 2-4 课程 安排 示意 图 









































课程 名 称 任课 教师 选用 教材 名 称 课程 名 称 任课 教师 选用 教材 名 称 
Tu Bn Ta Ba 
数学 分 析 Ti Bi» 数据 结构 Tz Be 
Ta Ts Bo 
这 里 课程 安排 具有 如 下 语义 。 


中 “数学 分 析 ” 这 门 课 程 可 以 由 3 个 教师 担任 .同时 有 两 本 教材 可 以 选用 。 

@ “数据 结构 ”这 门 课程 可 以 由 3 个 教师 担任 ,同时 有 3 本 教材 可 供 选用 。 

如 果 分 别 用 C, 、T, 和 B, 表示 “课程 名 称 ”“ 任 课 教师 ”和 “教材 名 称 ”, 上 述 情形 可 以 表 
示 关 系 CTB, 如 表 2-5 所 示 。 
































Cn 本 B, KE Te B, 
数学 分 析 Th Bu 数据 结构 Ta Bss 
数学 分 析 Th Bis 数据 结构 Ta Ba 
数学 分 析 Te Bu 数据 结构 Ta Bo 
数学 分 析 Ta Bis 数据 结构 Ts Bs 
数学 分 析 Ta Bu 数据 结构 Ts Ba 
数学 分 析 Ta Bis 数据 结构 Ts Be 
数据 结构 Ta Ba 数据 结构 Ts Bs 
数据 结构 Ta Be 

















这 个 关系 表 是 数据 高 度 宛 余 的 ,通过 分 析 可 以 发 现 它 有 如 下 特点 。 

g@ 属性 集 {C,} 与 1T,) 间 及 {C,} 与 {B,) 间 存在 数据 依赖 关系 ,而 这 两 个 数据 依赖 都 不 是 
“函数 依赖 ”, 因 为 当 属性 子 集 {C,。} 的 一 个 值 确定 之 后 , 另 一 属性 子 集 {T,} 就 有 一 组 值 与 之 
对 应 。 例 如 , 当 C, 一 个 值 “数学 分 析 ” 确 定 后 就 有 一 组 任课 教师 T, 值 “Tu 交 Ta 和 ”Tis” 与 
之 对 应 。 对 于 C, 与 B, 也 是 如 此 。 这 是 一 种 “一 对 多 ”的 情形 。 

@ 属性 集 {T,} 和 {B,} 也 有 通过 {C,} 建 立 起 来 的 间接 关系 ,这 种 关系 值得 注意 的 是 , 当 
{C,} 值 确定 后 ,所 对 应 的 一 组 {T,} 值 与 U 一 {C,) 一 {T,}) 无 关 。 例 如 , 取 定 {CG,}) 值 为 “数学 分 
析 ”, 则 对 应 {T,} 的 一 组 值 “Th Ta 和 Ts "与 此 “数学 分 析 ” 课 程 选用 教材 即 U 一 {C,) 一 {T,} 值 
无 关 。 这 是 “一 对 多 ”关系 中 的 一 种 特殊 情况 。 

如 果 属 性 子 集 X 与 Y 之 间 依 赖 关系 具有 上 述 特征 ,就 不 能 为 函数 依赖 关系 所 包容 , 需 
要 引入 新 的 概念 予以 刻画 与 描述 ,这 就 是 多 值 依赖 。 

1) 多 值 依赖 

设 有 关系 模式 R(U),X、Y 是 属性 集 U 中 的 两 个 子 集 , 而 > 是 R(U) 中 任意 给 定 一 个 关系 
实例 。 如 果 下 述 条 件 成 立 , 则 称 Y 多 值 依赖 (Multivalued Dependency) 于 X, 记 为 X>>Y。 

@ 对 于 r 在 X 上 的 一 个 确定 的 值 (元 组 ), 都 有 + 在 Y 中 一 组 值 与 之 对 应 。 

@YY 的 这 组 对 应 值 与 + 在 Z==U 一 X 一 Y 中 的 属性 值 无 关 。 

如 果 X 一 >Y, 但 Z==U 一 X 一 Y 隆 名, 则 称 其 为 非 平凡 多 值 依赖 ,否则 称 为 平凡 多 值 依 
赖 。 平 凡 多 值 依赖 常见 情形 是 U= 二 XUY, 此 时 Z== 儿 。 

需要 指出 的 是 ,函数 依赖 反映 对 属性 值 的 约束 。 例 如 ,S#C# 一 G, 如 果 在 一 个 元 组 中 ， 
当 学 号 S# 和 课程 号 C# 的 值 确定 之 后 ,对 应 成 绩 G 属性 值 一 定 唯一 ,不 能 是 多 个 。 例 如 ， 
在 例 2-25 中 ,由 C 一 一 T。 可 知 , 如 果 给 定 排 课 关 系 中 有 元 组 (数学 分 析 ,T ,Bi )( 表 2-5 第 
一 行 ) 和 (数学 分 析 ,Ti ,Biz)( 表 2-5 第 四 行 ), 则 一 定 也 有 元 组 (数学 分 析 , Tu ,Bis)( 表 2-5 
第 二 行 ) 和 (数学 分 析 ,Tis ,Bu )( 表 2-5 第 三 行 ) 。 

2) 第 四 范式 一 一 4NF 

对 于 R(U) 中 的 任意 两 个 属性 子 集 X 和 Y, 如 果 对 于 任意 非 平 凡 多 值 依赖 X 一 一 Y,X 
都 为 超 键 , 则 称 R(U) 满 足 第 四 范式 , 记 为 R(U)E4NF。 由 4NF 定义 可 知 : 

@ 由 于 RCU) 上 的 函数 依赖 XY 可 看 作 多 值 依赖 X 一 >Y, 如 果 R(U) 属 于 第 四 范 
式 , 此 时 X 就 是 超 键 ,因此 XY 满足 BCNF. 即 4NF 中 所 有 的 函数 依赖 都 满足 BCNF。 

@ 如 X 一 >Y 是 非 平凡 多 值 依赖 ,在 4NF 中 ,X 就 是 超 键 ,此 时 多 值 依赖 就 是 函数 依 
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赖 , 即 4NF 中 可 能 的 多 值 依赖 或 平凡 多 值 依赖 ,或 者 名 义 上 为 多 值 依赖 的 函数 依赖 。 

可 以 粗略 地 说 ,R(U) 满 足 第 四 范式 必 满 足 BC 范式 。 但 反之 则 不 成 立 , 所 以 BC 范式 不 
一 定 是 第 四 范式 。 

在 例 2-25CTB(C,,T,,B,) 唯 一 候选 键 是 {C,,T,,B,}, 且 没有 非 主 属 性 ,当然 就 没有 非 
主 属 性 对 候选 键 的 部 分 函数 依赖 和 传递 函数 依赖 ,所 以 CTB 满足 BC 范式 。 但 在 多 值 依赖 
C 一 一 T, 和 C, 一 一 B, 中 的 “C,” 不 是 键 ,所 以 CTB 不 属于 4NF。 对 CTB 进行 分 解 , 得 到 
CTB, 和 CTB; ,如 表 2-6 和 表 2-7 所 示 。 


























表 2-6 关系 CTB， 表 2-7 关系 CTB; 

Cs 区 C, B, 
数学 分 析 Tu 数学 分 析 Bu 
数学 分 析 Tu 数学 分 析 Bi 
数学 分 析 Ths 数据 结构 Ba 
数据 结构 Ta 数据 结构 Be 
数据 结构 Ts 数据 结构 Be 
数据 结构 Ts 


在 CTB 中 ,C, 一 一 T, ,不 存在 非 平凡 多 值 依赖 ,CTB, € 4NF。 同 理 CTBsE4NF。 

2. 连接 依赖 与 SNF 

更 为 一 般 的 数据 依赖 是 连接 依赖 。 就 像 引 入 多 值 依赖 之 后 ,函数 依赖 就 成 为 多 值 依赖 
的 特例 ,引入 连接 依赖 概念 之 后 ,多 值 依赖 就 可 以 作为 连接 依赖 的 特例 。 

1) 多 值 依 赖 的 无 损 连接 定义 

可 以 由 例 2-25 分 析 多 值 依赖 问题 。 由 关系 模式 CTB 的 属性 集合 U={C,,T,,B,)} 上 的 
一 个 划分 {{C,},{T,}),{B,)} 可 以 得 到 U 上 的 一 个 覆盖 {{C,,T,}),{C,,B,})} ,如果 记 CTB, = 
Ic, ,zr (CRT) ,CTB; 三 Ic,,s,) (CRT) ,容易 验证 下 式 成 立 : 

CTB = CTB, DP 4 CTB; = Hic,,r, (CRT) BD 4 Hic,,s,) (CRT) 
这 说 明 由 属性 分 解 得 到 的 模式 分 解 具有 “无损 连 接 分 解 " 性 质 。 将 CTB 换 为 一 般 关系 模式 ， 
将 CTB 的 划分 {{C,),{T,),{B,)} 换 为 一 般 属性 集 划 分 ,就 得 到 多 值 依 赖 的 另 一 等 价 定 义 。 

设 有 关系 模式 RC(U) ,而 X.Y 和 Z 是 属性 集 U 的 一 个 划分 。 如 果 对 于 R 的 每 一 个 关系 
实例 ,都 成 立 * 王 Ilxyw (7r) > 4 Tix,z (7), 则 称 多 值 依赖 XX 一 >Y 在 R(U) 上 成 立 。 

上 述 定义 可 以 看 作 多 值 依 赖 的 无 损 连接 分 解 定义 ,其 意义 在 于 可 以 进行 推广 ,因为 上 述 
定义 实际 上 做 出 了 关系 模式 R(U ,E) 的 一 种 分 解 : op 二 {Ri1(Ui ,i) ,Rs(U;,F,)), 其 中 Ui 一 
XY,F 是 XX 和 YY 之 间 数 据 依赖 的 集合 ,U, 二 XZ,F, 是 X 和 2Z 之 间 数 据 依赖 的 集合 。 这 
里 ,UU Us 二 {X,Y}U{X,Z}=U, 即 {X,Y} 和 {X,Z} 是 U 上 的 一 个 覆盖 。 而 Y 多 值 依赖 
于 Y 的 充分 必要 条 件 就 是 由 此 得 到 的 模式 分 解 p 是 “无 损 连 接 分 解 "。 这 里 模式 分 解 集合 只 
有 两 个 元 素 ,如 果 考 虑 多 于 两 个 元 素 ,就 得 到 “连接 依赖 "的 概念 。 

2) 连接 依赖 

设 有 关系 模式 R(U), {Ui ,Us,…,U,} 是 属性 集合 U 的 一 个 覆盖 ,关系 模式 集合 p= 
{Ri ,Rs,…,R,}) 是 R 的 一 个 模式 分 解 ,其 中 R; 是 对 应 于 U; 的 关系 模式 (i 二 1,2,…,n)。 如 
果 对 于 尺 的 每 一 个 关系 实例 ~, 下 式 成 立 : 





r= TT, WP 4 .Ddpa I 

则 称 连接 依赖 (Join Dependency,JD) 在 关系 模式 RR 上 成 立 , 记 为 > 4 (Ri,R,，,…,R,)。 

如 果 连 接 依赖 中 每 一 个 Ri,i 二 1,2,…,n 都 不 等 于 R, 则 称 此 时 连接 依赖 是 非 平 凡 的 ， 
否则 称 为 平凡 的 。 

由 连接 依赖 定义 ,多 值 依赖 是 模式 的 无 损 分 解 集合 中 只 有 两 个 分 解 元 素 的 连接 依赖 , 因 
而 是 连接 依赖 特例 ,连接 依赖 是 多 值 依赖 的 推广 。 

【 例 2-26】 供应 关系 SPJ{S# ,P# ,J#} ,其 中 S# ,P# 和 丁 # 分 别 表示 供应 商 编号 、 堆 
件 编号 和 工程 编号 。SPJ 表示 供应 关系 , 即 某 个 供应 商 提供 某 零件 给 某 工 程 。 令 SP= 
{S# ,P#》JP 一 {P# ,J#} 和 JS 一 休 #,S#}, 则 存在 连接 依赖 放 q (SP,PJ,JS) 在 SPJ 上 
成 立 。 

设 关系 实例 二 (So ,Po)E SP, 表 示 公 司 So 供应 零件 P, 。 

设 关 系 实例 ro 二 (J。,Po)EJP, 表 示 工 程 J。 需要 零件 Po。 

设 关系 实例 rs 二 (So ,Jo)ESJ, 表 示 公 司 S, 和 Jo 有 供应 零件 关系 。 

此 时 ,关系 实例 r=(So,Po,Jo)==Ilsp (7) I(r)PD4dIs(r)=nP4r,bPdr€SP] 
就 表示 公司 So 必须 为 工程 J。 提供 零件 P, 。 

3) 第 五 范式 一 一 5NF 

假设 关系 模式 RCU) 上 任意 一 个 非 平凡 连接 依赖 4 (Ri ,Rs,…,R,) 都 由 民 的 某 个 候 
选 键 所 蕴含 , 则 称 关系 模式 R 满足 第 五 范式 , 记 为 R(U)E 5NF。 

第 五 范式 在 有 些 文献 中 也 称 为 投影 连接 范式 (Project-Join Normal Form), 简 记 为 
PJNF。 

这 里 所 说 的 由 R 的 候选 键 所 列 含 ,是 指 >q (Ri.,R;,…,R,) 可 以 由 候选 键 推出 。 

【 例 2-27】 在 例 2-26 > 4 (SP,PJ,JS) 中 的 SP、PJ 和 JS 都 不 等 于 SPJ, 是 非 平 凡 的 连 
接 依 赖 ,但 4 (SP,PJ,JS) 并 不 被 SPJ 的 唯一 候选 键 {S# ,P# ,J#} 蕴 含 ,因此 不 是 5NF。 
将 SPJ 分 解 成 SP、PJ 和 JS 3 个 模式 ,此 时 分 解 是 无 损 分 解 ,并 且 每 一 个 模式 都 是 5NF, 可 以 
消除 元 余 及 其 操作 异常 现象 。 

关系 模式 分 解 需 要 按照 一 定 方 式 来 保 






















































































证 原 有 信息 不 至 于 “畸变 ”或 “损失 ”"。 分 解 迁 诬 信 加 a 
实际 上 可 以 看 作 属 性 集合 U 的 投影 ,而 各 种 。 | | 
必要 信息 的 保持 主要 是 通过 “连接 ”实现 的 。 多 值 依赖 4NF 
因此 ,从 直观 上 来 看 ,迄今 为 止 采取 的 模式 | 
设计 方法 就 是 “使 用 投影 进行 分 解 " 和 “使 用 BCNF 
连接 进行 重 构 "。 从 这 个 角度 来 看 ,连接 依 
赖 就 是 所 有 基于 “投影 分 解 和 连接 重 构 ” 方 3NF 
法 的 最 一 般 形式 ,同时 5NF 也 就 覆盖 了 所 有 函数 依赖 上 | 1 
以 投影 .连接 为 基础 的 各 种 规范 化 形式 。 当 2NF 
然 , 如 果 不 限于 上 述 分 解 方式 ,就 有 可 能 考 1 
虑 其 他 的 规范 化 方法 。 INF 
3 种 数据 依赖 和 各 种 范式 之 间 的 关系 如 
图 2-1 所 示 。 图 2-1 3 种 数据 依赖 及 各 种 范式 之 间 的 关系 
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2.4 关系 数据 库 保护 


关系 数据 库 保护 主要 是 指数 据 库 的 完整 性 保护 和 安全 性 保护 。 

完整 性 保护 : 防止 数据 库 中 存在 不 符合 语义 的 数据 , 即 防止 数据 库 中 存在 不 正确 的 数 
据 ,防范 对 象 为 不 合 语义 的 、 不 正确 的 数据 。 

安全 性 保护 : 防止 恶意 的 破坏 和 非法 的 存 取 ; 防范 对 象 为 非法 用 户 和 非法 操作 。 

以 下 简要 回顾 数据 库 保 护 技术 要 点 及 其 在 SQL 中 的 实现 。 


2.4.1 完整 性 保护 


完整 性 包括 数据 的 正确 性 和 相 容 性 ,主要 是 指数 据 的 实体 完整 性 、 域 完整 性 .参照 完整 
性 和 用 户 定 义 完整 性 。 

1) 实体 完整 性 保护 

关系 模型 的 实体 完整 性 在 基本 表 创 建 语句 CREATE TABLE 中 用 PRIMARY KEY 定 
义 。 若 主键 由 单 属 性 构成 , 则 可 将 其 定义 为 列 级 约束 条 件 ; 否则 需 将 其 定义 为 表 级 约束 
条 件 。 

【 例 2-28】〗 定义 S 中 的 实体 完整 性 。 

CREATE TABLE S 

(Sno CHAR(9) PRIMARY KEY, 
Sname VARCHAR(20) NOT NULL 

); 

当 插 入 数据 或 对 主键 列 进行 更 新 操作 时 ,RDBMS 按照 实体 完整 性 规则 自动 进行 检查 。 
首先 检查 主键 值 是 否 唯一 ,如 果 不 唯一 则 拒绝 插入 或 修改 ; 其 次 检查 主键 的 各 个 属性 是 否 
为 空 ,只 要 有 一 个 为 空 就 拒绝 插入 或 修改 。 

2) 域 完整 性 保护 

域 完 整 性 保护 是 指 表 中 的 列 必 须 满足 某 种 特定 的 数据 类 型 约束 ,其 中 约束 又 包括 取 值 
范围 .精度 等 规定 。 

【 例 2-29】 定义 S 中 的 域 完整 性 。 

CREATE TABLE S 

(Sno CHAR(9) PRIMARY KEY, 
Sname VARCHAR(20) NOT NULL, 
Sdate DATATIME 

); 

对 于 Sdate 列 定义 了 数据 类 型 为 DATATIME 类 型 ,那么 在 进行 数据 输入 或 更 新 时 ,只 
能 输入 符合 日 期 型 数据 类 型 的 值 ,如 '2017-01-01', 如 果 是 输入 'abcd' 等 普通 字符 串 ,RDBMS 
会 进行 检查 并 返回 错误 提示 。 

3) 参照 完整 性 保护 

关系 模型 的 参照 完整 性 在 CREATE TABLE 中 用 FOREIGN KEY 短语 定义 哪些 列 为 
外 键 , 用 REFERENCES 短语 指明 这 些 外 键 参 照 哪些 表 的 主键 。 





例如 ,关系 SC 中 一 个 元 组 表示 一 个 学 生 选 修 的 某 门 课程 的 成 绩 ,(Sno,Cno) 是 主键 。 
Sno,Cno 分 别 参照 引用 Student 表 的 主键 和 Course 表 的 主键 。 
【 例 2-30】 定义 SC 中 的 参照 完整 性 。 


CREATE TABLE SC 
(Sno CHAR(9) NOT NULL, 
Cno CHAR(4) NOT NULL, 
Grade SMALLINT, 
PRIMARY KEY (Sno，Cno)，/* 此 处 为 多 属性 主键 ,必须 为 表 级 约束 条 件 * / 
了 FOREIGN KEY (Sno) REFERENCES Student(Sno), 
了 FOREIGN KEY (Cno) REFERENCES Course(Cno) 
) 


在 可 能 出 现 破坏 参照 完整 性 情形 时 DBMS 会 进行 相应 处 理 , 如 表 2-8 所 示 。 
表 2-8 违反 参照 完整 性 处 理 




















被 参照 表 ( 如 S 表 ) 参照 表 ( 如 SC 表 ) 违反 参照 完整 性 处 理 
可 能 破坏 参照 完整 性 一 插入 元 组 拒绝 
可 能 破坏 参照 完整 性 一 修改 外 键 值 拒绝 
删除 元 组 一 可 能 破坏 参照 完整 性 拒绝 /级 联 删除 /设置 为 空 值 
修改 主键 值 一 可 能 破坏 参照 完整 性 拒绝 /级 联 修改 /设置 为 空 值 


如 表 2-8 所 示 , 违 反 参 照 完 整 性 有 3 种 处 理 方式 : 拒绝 (NO ACTION) 执 行 , 这 是 系统 
默认 策略 ; 级 联 (CASCADE) 删 除 或 设置 为 空 值 (SET-NULL)。 
对 于 参照 完整 性 ,除了 应 该 定义 外 键 外 ,还 应 定义 外 键 列 是 否 允 许 空 值 ,默认 为 可 以 





为 空 。 
4) 用 户 定义 完整 性 保护 
按照 定义 方式 的 不 同 , 用 户 定义 完整 性 约束 分 为 创建 关系 时 定义 和 独立 定义 两 种 类 型 。 
(1) 创建 关系 时 定义 。 此 时 有 属性 约束 条 件 和 元 组 约束 条 件 两 种 情形 。 
@ 属性 列 完整 性 约束 。 在 CREATE TABLE 时 定义 ,主要 有 属性 值 非 空 (NOT 
NULL) 约 东 、 属 性 值 唯 一 (UNIQUE) 约 束 和 属性 值 是 否 满足 一 个 布尔 表达 式 (CHECK) 
约束 。 
【 例 2-31】 Student 表 的 Ssex 只 允许 取 “ 男 ”或 “ 女 ”。 
CREATE TABLE Student 
(Sno CHAR(9) PRIMARY KEY, 
Sname CHAR(8) NOT NULL, 
Ssex CHAR(2) CHECK (Ssex IN (' 男 ', ' 女 ') )， 
Sage SMALLINT, 
Sdept CHAR(20) 
); 
说 明 : 这 是 使 用 CHECK 短语 定义 属性 上 约束 的 情形 ,可 以 作为 列 级 约束 条 件 。 
当 插 入 元 组 或 修改 属性 值 时 ,RDBMS 会 自动 检查 属性 上 的 约 东 条 件 是 否 被 满足 ,如 果 
不 满足 则 操作 被 拒绝 执行 。 
@ 元 组 完整 性 约束 。 在 CREATE TABLE 时 可 以 用 CHECK 短语 定义 元 组 上 的 约束 
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条 件 , 即 元 组 级 的 限制 。 与 属性 值 限制 相 比 ,元 组 级 限制 可 设置 不 同属 性 间 取 值 的 相互 约束 
条 件 。 
【 例 2-32】 学 生 的 性 别 是 男 时 ,其 名 字 不 能 以 Ms. 打头 。 
CREATE TABLE Student 
(Sno CHAR(9), 
Sname CHAR(8) NOT NULL, 
Ssex CHAR(2), 
Sage SMALLINT, 
Sdept CHAR(20), 
PRIMARY KEY (Sno), 
CHECK (Ssex = ' 女 'OR (Ssex = ' 男 ' RND Sname NOT LIKE 'Ms. % ')) 
); 
性 别 是 女性 的 元 组 都 能 通过 该 项 检查 ,因为 Ssex 二 ' 女 ' 成 立 ; 当 性 别 是 男性 时 ,同时 名 
字 需 要 通过 检查 一 定 不 能 以 Ms. 打头 ,由 于 Check 涉及 表 中 的 多 个 属性 ,只 能 使 用 表 级 约 
束 条 件 。 
插入 元 组 或 修改 属性 的 值 时 ,RDBMS 检查 元 组 上 的 约束 条 件 是 否 被 满足 ,如 果 不 满足 
则 操作 被 拒绝 执行 。 
(2) 独立 定义 用 户 完整 性 约束 。 传 统 的 独立 定义 用 户 完 整 性 约束 分 为 断言 约束 、 规 则 
约束 和 域 约束 3 种 情形 。 
由 于 目前 流行 的 关系 数据 库 产品 出 于 性 能 的 考虑 ,基本 不 支持 这 些 约束 ,而 会 使 用 触发 
器 等 编程 功能 来 实现 。 


2.4.2 安全 性 保护 


数据 库 安全 性 涉及 技术 安全 ,管理 安全 和 政策 安全 3 个 方面 ,在 数据 库 学 科 中 主要 讨论 
数据 库 的 技术 安全 ,其 中 包括 操作 系统 安全 、 网 络 安 全 和 数据 库 自身 安全 技术 。 通 常数 据 库 
课程 中 讨论 的 数据 库 安全 保护 技术 主要 是 指数 据 库 自身 安全 技术 。 

数据 库 自身 安全 技术 的 基础 是 数据 库 安全 性 控制 .视图 和 审计 ,其 中 安全 性 控制 是 数据 
库 安全 性 保护 的 主要 技术 支撑 。 

1) 基于 存 取 控 制 的 安全 性 技术 

数据 库 安全 性 控制 分 为 自主 存 取 控制 和 强制 存 取 控制 两 种 情形 。 

(1) 自主 存 取 控制 。 用 户 对 不 同 的 数据 库 对 象 具有 不 同 的 存 取 权限 ,同时 ,不 同 用 户 对 同 
一 数据 库 对 象 也 有 不 同 的 存 取 权 限 。 只 有 具有 相应 权限 的 用 户 才 能 存 取 相应 的 数据 库 对 象 。 

用 户 权 限 由 数据 库 对 象 和 操作 类 型 组 成 。 数 据 库 对 象 有 数据 库 、 基 本 表 、 视 图 和 索引 
等 ; 数据 操作 类 型 有 创建 .更 新 .查询 等 。 

所 有 的 关系 数据 库 管理 系统 都 支持 自主 存 取 控制 。 在 SQL 中 ,主要 是 通过 GRANT 
和 REVOKE 请 句 实现 自主 存 取 控 制 。 

【 例 2-33】 把 对 Student 表 和 Course 表 的 全 部 权限 授予 用 户 U2 和 U3。 

GRANT ALL, PRIVILIGES 


ON TABLE Student, Course 
TO U2,03; 








把 对 SC 表 的 INSERT 权限 授予 U5 用 户 ,并 允许 他 再 将 此 权限 授予 其 他 用 户 。 


GRANT INSERT 
ON TABLE SC 
TO 05 
WITH GRANT OPTION; 


说 明 : WITH GRANT OPTION 短语 标识 DBA 允许 被 授权 用 户 可 以 将 其 得 到 的 权限 
传递 给 其 认为 合适 的 其 他 用 户 , 这 将 提高 授权 机 制 的 效率 。 

【 例 2-34】 将 用 户 U5 对 SC 表 的 INSERT 权限 收回 。 

REVOKE INSERT 


ON TABLE SC 
FROM U5 CASCADE; 


说 明 : 如 果 被 收回 权限 的 用 户 还 具有 “传播 "的 权限 ,需要 如 同上 述 语句 那样 ,在 末尾 添 
加 CASCADE。 上 述 语 身 就 表示 将 用 户 U5 的 INSERT 权限 收回 时 必须 级 联 收回 其 传递 给 
其 他 用 户 的 INSERT 权限 ,如 果 此 时 没有 关键 字 CASCADE, 而 U5 又 具有 传递 权限 , 则 系 
统 将 拒绝 执行 收回 语句 。 

(2) 强制 存 取 控 制 。 每 个 数据 库 对 象 都 分 配 一 个 “密级 ”, 每 个 用 户 也 被 授予 一 个 级 别 。 
对 于 每 个 数据 库 对 象 ,根据 其 密级 ,只 有 具有 相应 合法 许可 证 级 别 的 用 户 才能 存 取 。 与 自主 
存 取 控制 相 比 ,强制 存 取 控制 安全 性 检查 更 为 严格 。 

在 实际 应 用 中 ,通常 是 在 实现 MAC 之 前 先 实现 DAC, 从 而 由 两 者 共同 构成 数据 库 的 
安全 性 保护 。 

2) 基于 视图 的 安全 性 保护 

为 不 同 用 户 创 建 不 同 视图 ,通过 将 数据 对 象限 制 在 一 定 范围 内 ,把 需要 保密 的 数据 对 无 
权 存 取 的 用 户 屏蔽 起 来 ,从 而 自动 为 数据 提供 一 定 程度 的 安全 性 保护 。 

3) 基于 审计 的 安全 性 保护 

基于 存 取 控制 和 基于 视图 的 安全 性 机 制 可 以 看 作 是 “事先 预防 ”, 但 任何 安全 性 措施 都 
会 有 缺陷 ,都 有 可 能 被 攻破 。 审 计 (audit) 就 是 将 用 户 对 于 数据 库 对 象 的 所 有 操作 通过 审计 
日 志 了 予以 记录 ,然后 通过 审计 跟踪 相应 行 迹 ,以 便 重 现 可 能 导致 破坏 数据 库 安全 性 的 一 系列 
事件 ,从 而 发 现 非法 存 取 的 人 、 事 件 和 内 容 等 。 审 计 通 常 需要 较 大 时 间 与 空间 开销 ,一 般 都 
是 作为 安全 性 的 可 选项 目 , 即 便 是 使 用 审计 .也 多 针对 个 别 情 形 , 而 不 是 整个 数据 库 对 象 。 
审计 功能 适用 于 对 安全 性 要 求 较 高 的 环境 。SQL 中 通过 AUDIT 语句 和 NOAUDIT 语句 
创建 或 撤销 对 给 定数 据 库 对 象 的 审计 功能 。 

【 例 2-35】 对 修改 SC 表 结构 或 修改 SC 表 数 据 的 操作 进行 审计 。 


AUDIT ALTER, UPDATE 
ON SC; 


【 例 2-36】 取消 对 SC 表 的 一 切 审 计 。 


NOAUDIT ALTER, UPDATE 
ON SC; 
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2.5 关系 数据 库 事务 处 理 


利用 数据 库 完 成 一 项 业务 工作 时 常常 会 涉及 多 个 数据 库 操 作 组 成 的 序列 ,在 技术 上 ,每 
个 操作 都 可 独立 完成 ,但 在 逻辑 上 ,只 有 序列 中 每 个 操作 都 完成 之 后 才能 实现 一 项 具体 的 业 
务工 作 。 也 就 是 说 ,这 些 可 以 单个 执行 的 操作 是 有 内 在 关联 的 ,它们 组 成 的 操作 序列 需要 看 
作 一 个 整体 ,是 一 个 不 可 分 割 的 工作 单元 。 事 实 上 ,现代 关系 数据 库 就 是 以 如 此 的 单元 为 其 
基本 处 理 单位 ,这 种 工作 单元 就 是 数据 库 中 的 事务 。 

事务 (transaction) 是 一 个 满足 下 述 性 质 的 数据 库 操作 的 序列 。 

(1) 工作 执行 的 原子 性 (atomic)。 序 列 中 的 数据 操作 “要 么 全 做 ,要 么 全 不 做 ”, 不 能 存 
在 部 分 完成 的 情况 。 

(2) 更 新 操作 的 一 致 性 (comsistency)。 在 执行 数据 更 新 过 程 中 要 保证 数据 前 后 的 一 臻 
性 ,需要 从 一 种 一 致 性 状态 转换 到 另 一 种 一 致 性 状态 。 

(3) 并 发 执行 的 隔离 性 (isolation)。 如 果 多 个 操作 序列 同时 执行 ,其 最 终 效果 需要 与 单 
个 操作 序列 独立 执行 一 样 。 

(4) 成 功 结果 的 持久 性 (durability)。 当 操作 序列 成 功 执行 后 相应 数据 结果 对 于 数据 库 
影响 持久 ,即便 是 当 数 据 库 发 生 故障 而 遭 到 破坏 时 也 能 恢复 原先 的 数据 结果 。 

也 就 是 说 ,只 有 满足 上 述 ACID 性 质 的 操作 序列 才 是 数据 库 意义 下 的 事务 ,而 事务 是 
DBMS 进行 数据 管理 的 执行 工作 单元 。 

如 前 所 述 , 数 据 库 的 基本 目标 是 实现 对 数据 的 统一 管理 和 用 户 共享 。 

实现 用 户 共 享 数 据 的 技术 途径 就 是 多 项 数据 库 操作 的 并 发 执行 ,而 进行 统一 管理 数据 
的 一 项 重要 任务 就 是 数据 库 的 故障 恢复 ,而 事务 管理 就 为 “并 发 执行 "和 “故障 恢复 ”提供 了 
适当 的 和 有 效 的 技术 实现 架构 。 


2.5.1 并 发 控制 


数据 库 的 特性 之 一 是 数据 共享 , 即 多 个 用 户 同时 使 用 数据 库 中 同一 数据 ,这 就 需要 考虑 
数据 库 中 多 个 事务 的 并 发 执行 。 多 事务 并 发 执行 有 以 下 3 种 实现 方式 。 

(1) 事务 串 行 执行 。 每 个 时 刻 只 有 一 个 事务 运行 ,其 他 事务 必须 等 到 这 个 事务 结束 以 
后 方 能 运行 ,这 种 方式 不 能 充分 利用 系统 资源 ,发 挥 数据 库 共享 资源 的 特点 。 

(2) 事务 交叉 并 发 方式 (interleaved concurrency)。 在 单 处 理 机 系统 中 ,事务 的 并 行 执 
行 是 这 些 并 行事 务 的 并 行 操作 轮流 交叉 运行 , 单 处 理 机 系统 中 的 并 行事 务 并 没有 真正 并 行 
运行 ,但 能 够 减少 处 理 机 的 空闲 时 间 ,提高 系统 的 效率 。 

(3) 事务 同时 并 发 方式 (simultaneous concurrency)。 多 处 理 机 系统 中 ,每 个 处 理 机 可 
以 运行 一 个 事务 ,多 个 处 理 机 可 以 同时 运行 多 个 事务 ,实现 多 个 事务 真正 的 并 行 运行 。 

通常 数据 库 多 事务 并 发 执行 主要 研究 交叉 并 发 执行 。 这 里 主要 需要 研究 下 述 3 个 
问题 。 

@ 如 果 不 进 行 并 发 控制 ,会 出 现 哪 些 问 题 , 又 如 何 解决 ? 

@ 并 发 调度 有 多 重 方式 ,如 何 判定 哪 种 方式 是 “合适 的? 

@ 由 于 并 发 执行 的 复杂 性 ,在 上 述 两 个 问题 之 外 ,还 会 产生 什么 问题 ? 如 何 解决 ? 


1. 并 发 控制 封锁 技术 

1) 并 发 控制 的 必要 性 

并 发 执行 需要 加 以 控制 或 调度 ,否则 会 出 现下 述 问 题 。 

(1) 丢失 修改 。 例 如 ,在 飞机 售票 系统 中 ,不同 售票 点 可 能 同时 发 售 机 票 。 

@ 甲 售 票 点 ( 甲 事 务 ) 读 出 某 航班 的 机 票 余额 A, 设 A=16。 

@ 乙 售 票 点 ( 乙 事务 ) 读 出 同一 航班 的 机 票 余额 A, 也 为 16。 

@ 甲 售 票 点 卖 出 一 张 机 票 ,修改 余额 A<-A 一 1, 所 以 A 为 15, 把 A 写 回 数据 库 。 

图 乙 售 票 点 也 卖 出 一 张 机 票 ,修改 余额 A<A 一 1, 所 以 A 为 15, 把 A 写 回 数 据 库 。 

结果 明明 卖 出 两 张 机 票 ,数据 库 中 机 票 余额 只 减少 1。 此 时 ,两 个 事务 T 和 Ts 读 入 同一 
数据 并 修改 ,T, 的 提交 结果 破坏 了 T 提交 的 结果 ,导致 Ti 的 修改 被 丢失 (lost update) 。 

(2) 不 可 重复 读 。 不 可 重复 读 (non-repeatable read) 是 指 事务 Ti 读 取 数据 后 ,事务 T。 
执行 更 新 操作 ,使 Ti 无 法 再 现 前 一 次 读 取 结 果 。 

不 可 重复 读 包括 以 下 3 种 情况 。 

@ 事务 T 读 取 某 一 数据 后 ,事务 T。 对 其 做 了 修改 , 当 事 务 Ti 青 次 读 该 数据 时 ,得 到 
与 前 一 次 不 同 的 值 ,如 图 2-2 所 示 。 

在 图 2-2 中 ,T, 读 取 B=100 进行 运算 ; T, 读 取 同一 数据 B, 对 其 进行 修改 后 将 B= 
200 写 回 数据 库 ; T) 为 了 对 读 取 值 校 对 重读 B,B 已 为 200, 与 第 一 次 读 取 值 不 一 致 。 

@ 事务 Ti 按 一 定 条 件 从 数据 库 中 读 取 了 某 些 数 据 记录 后 ,事务 T, 删除 了 其 中 部 分 记 
录 , 当 Ti 再 次 按 相 同 条 件 读 取 数 据 时 ,发 现 某 些 记录 消失 了 。 

@ 事务 Ti 按 一 定 条 件 从 数据 库 中 读 取 某 些 数据 记录 后 ,事务 Ts 插入 了 一 些 记录 , 当 
T, 再 次 按 相 同 条 件 读 取 数 据 时 ,发现 多 了 一 些 记 录 。 

后 两 种 不 可 重复 读 有 时 也 称 为 幻影 现象 (phantom row) 。 

(3) 读 “ 脏 ”数据 。“ 脏 ”数据 (dirty read) 是 指 事务 Ti 修改 某 一 数据 ,并 将 其 写 回 磁盘 ; 
事务 T。 读 取 同一 数据 后 ,Ti 由 于 某 种 原因 被 撤销 ; 这 时 Ti 已 修改 过 的 数据 恢复 原 值 ,Ts 
读 到 的 数据 就 与 数据 库 中 的 数据 不 一 致 ，T, 读 到 的 数据 就 为 “ 脏 数 据 , 即 不 正确 的 数据 ， 
如 图 2-3 所 示 。 


T T2 ， ， 
CD RCD=50 二 i 2 
R(B)=100 | l ane 
A+B=150 | ee 
©® | Aero mo | 
| | Be_B*2 2 | R(C)=200 
| ma-200 | 
@rayso | | | 
R(B)=200 | DROLLBACK | 
A+B=250 | C 恢 复 为 100 | 
( 术 验 出 销 ) | | 
图 2-2 不 可 重复 读 画 二 8 访 : 证 入 所 
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在 图 2-3 中 ,T 将 C 值 修改 为 200,T。 读 到 C 值 为 200,T 由 于 某 种 原因 撤销 ,其 修改 
作废 ,C 恢复 原 值 100; 这 时 T, 读 到 的 C 值 为 200, 与 数据 库 内 容 不 一 致 ,就 是 “ 脏 ” 数 据 。 

上 述 3 种 情形 都 会 导致 数据 不 一 致 性 ,这 是 由 于 不 加 控制 的 并 发 操作 破坏 了 事务 的 隔 
离 性 。 多 事务 并 发 执行 需要 进行 适当 的 并 发 控制 ,而 并 发 控制 就 是 要 用 正确 的 方式 调度 并 
发 操作 ,使 一 个 用 户 事务 的 执行 不 受 其 他 事务 的 干扰 ,从 而 避免 造成 数据 的 不 一 致 性 。 

2) 封锁 技术 

并 发 控制 技术 就 是 事务 的 封锁 技术 。 封 锁 是 系统 对 事务 并 发 执行 的 一 种 调度 和 控制 技 
术 ,是 保证 系统 对 数据 项 的 访问 以 互 斥 方式 进行 的 一 种 手段 。 封 锁 技术 的 基本 点 在 于 对 数 
据 对 象 操作 实行 某 种 专 有 控制 。 在 一 段 时 间 内 ,防止 其 他 事务 访问 指定 资源 ,禁止 某 些 用 户 
对 数据 对 象 做 某 些 操作 以 避免 不 一 致 性 ,保证 并 发 执行 的 事务 之 间 相 互 隔离 、. 互 不 干扰 ,从 
而 保障 并 发 事务 的 正确 执行 。 

(1) 当 一 个 事务 工 需要 对 数据 对 象 D 进行 操作 ( 读 / 写 ) 时 ,必须 向 系统 提出 申请 ,对 D 
加 以 封锁 ; 在 获得 加 锁 成 功 之 后 , 即 具 有 对 数据 D 一 定 操作 权限 与 控制 权限 ,此 时 ,其 他 事 
务 不 能 对 加 锁 的 数据 D 随意 操作 。 

(2) 当 事 务 T 操作 完成 之 后 即 释放 锁 ,此 后 数据 即 可 为 其 他 事务 操作 服务 。 

基于 封锁 技术 的 事务 进程 如 图 2-4 所 示 。 


事务 T1 。 [对 D 加 锁 2 
6 右 加 
事务 T2 人 对 更 新 后 D 申 锁 


图 2-4 基于 封锁 技术 的 事务 的 进程 


表 级 封锁 可 分 为 排他 锁 和 共享 锁 两 种 形式 。 

@ 排他 锁 (exclusive locks) : 又 称 为 写 锁 或 X 锁 。 其 含义 是 事务 荆 对 数据 对 象 D 加 X 
锁 后 , 工 可 以 对 加 X 锁 的 D 进行 读 / 写 ,而 其 他 事务 只 有 等 到 工 解除 X 锁 之 后 ,才能 对 D 进 
行 封锁 和 操作 (包括 读 / 写 ) 。 

@ 共享 锁 (sharing locks) : 又 称 为 读 锁 或 S 锁 。 其 含义 是 事务 工 对 数据 D 加 S 锁 之 
后 , 工 可 以 读 D 但 不 能 写 D; 同时 其 他 事务 可 以 对 D 加 S 锁 但 不 能 加 X 锁 。 

X 锁 和 S 锁 如 图 2-5 所 示 。 
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图 2-5 X 锁 与 S 锁 


排他 锁 和 共享 锁 的 控制 方式 也 可 用 相 容 矩阵 表示 ,如 图 2-6 所 示 。 
3) 三 级 封锁 协议 二 X S no lock 
在 对 数据 进行 封锁 时 需要 约定 一 些 规则 ,如 何 时 申 从 


请 封锁 、 持 锁 时 间 和 什么 时 间 释 放 封 锁 等 ,这 就 是 封锁 协 9 EE 
x x x 























议 (locking protocol) 。 

(1) 一 级 封锁 协议 。 事 务 工 在 对 数据 D 进行 写 操作 图 2-6 S 锁 和 X 锁 的 相 容 矩阵 
之 前 ,必须 对 D 加 X 锁 ; 保持 加 锁 状 态 直到 事务 结束 ( 包 
括 COMMIT 与 ROLLBACK) 才 可 释放 加 在 D 上 的 X 锁 。 由 此 防止 了 “丢失 修改 ”。 

(2) 二 级 封锁 协议 。 事 务 T 在 读 取 数 据 D 之 前 必须 先 对 D 加 S 锁 , 在 读 完 之 后 即 可 释 
放 加 在 D 上 的 S 锁 。 此 封锁 方式 与 一 级 封锁 协议 一 起 构成 二 级 封锁 协议 。 由 此 防止 了 “ 读 
脏 数据 ”。 

(3) 三 级 封锁 协议 。 事 务工 在 对 数据 D 读 之 前 必须 先 对 D 加 S 锁 ,直到 事务 结束 才能 
释放 加 在 D 上 的 S 锁 。 这 种 封锁 方式 与 一 级 封锁 协议 一 起 就 构成 三 级 封锁 协议 。 由 于 包 
含 一 级 封锁 协议 ,防止 了 丢失 修改 ; 包含 二 级 封锁 协议 的 基本 内 容 , 防 止 了 读 脏 数据 ; 另外 
由 于 在 对 数据 D 做 * 写 ?操作 时 加 X 锁 封 锁 , 做 * 读 ”操作 时 加 S 锁 封锁 ,这 两 种 锁 都 直到 事 
务 结束 后 才 释放 , 由 此 防止 不 可 重复 读 。 三 级 封锁 协议 同时 防止 并 发 执行 中 的 3 类 问题 。 

2. 可 品行 化 调度 

1) 串 行 化 调度 

数据 库 中 多 事务 并 发 执行 是 基于 各 个 事务 中 操作 的 “交错 ?执行 ,其 中 每 一 种 交错 方式 
就 称 为 并 发 执行 的 一 种 调度 方式 。 并 发 执行 的 调度 方式 非常 之 多 ,DBMS 对 并 发 事务 不 同 
的 调度 可 能 会 产生 不 同 的 结果 ,因此 ,需要 明确 哪 一 种 方式 是 “正确 ”的 , 哪 一 种 方式 是 “不 正 
确 "* 的 。 从 直观 上 来 讲 , 多 个 事务 的 “顺序 ” 即 “ 串 行 ”执行 结果 总 是 不 会 出 错 的 ,因此 可 以 多 
事务 的 串 行 执行 作为 并 发 调度 的 正确 性 标准 。 

可 串 行 化 Cserializable) 调 度 : 多 个 事务 的 并 发 执行 是 正确 的 , 当 且 仅 当 其 结果 与 按 某 一 
次 序 串 行 地 执行 这 些 事务 时 的 结果 相同 。 

2) 两 段 封 锁 协议 

两 段 封锁 协议 (Two-Phase Locking,2PL) 主 要 是 要 求 所 有 事务 必须 分 两 个 阶段 对 数据 
项 加 锁 和 解锁 ,从 而 保证 了 由 其 产生 的 并 发 调度 是 可 串 行 化 的 。 

在 2PL 中 ,事务 的 封锁 分 为 以 下 两 个 阶段 。 

阶段 1: 获得 封锁 ,也 称 为 扩展 阶段 ,此 时 ,事务 可 以 申请 获得 任何 数据 项 上 的 任何 类 型 
的 锁 ,但 是 不 能 释放 任何 锁 。 

阶段 2: 释放 封锁 ,也 称 为 收缩 阶段 ,此 时 ,事务 可 以 释放 任何 数据 项 上 的 任何 类 型 的 
锁 , 但 是 不 能 再 申请 任何 锁 。 

当 事 务 T 遵守 2PL 时 ,相应 封锁 序列 过 程 如 下 : 

Slock A Slock B XlockC Unlock B Unlock A Unlock C 

| 二 扩展 阶段 二 | | 收缩 阶段 一 | 

当 事 务 不 遵守 两 段 锁 协 议 , 相 应 封锁 序列 过 程 如 下 : 

Slock A Unlock A Slock B XlockC UnlockC Unlock B 
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2.5.2 故障 恢复 


数据 库 的 恢复 是 把 数据 库 从 错误 状态 恢复 到 某 一 已 知 的 正确 状态 (也 称 为 一 致 状态 或 
完整 状态 ) 。 

1. 数据 库 故 障 类 型 

数据 库 的 故障 主要 有 事务 级 (事务 内 部 ) 故 障 、 系 统 级 故障 和 介质 级 故障 3 种 类 型 。 

(1) 事务 级 故障 。 事 务 内 部 故障 多 是 非 预 期 的 ,不 能 由 应 用 程序 处 理 , 如 运算 溢出 、 并 
发 事务 发 生死 锁 而 被 选中 撤销 该 事务 和 违反 了 某 些 完整 性 限制 等 。 事 务 故障 恢复 策略 主要 
是 撤消 事务 (UNDO)。 

(2) 系统 级 故障 。 系 统 级 故障 也 称 为 软 故障 ,是 指 造成 系统 停止 运转 的 任何 事件 ,使 得 
系统 需要 重新 启动 ,如 整个 系统 的 正常 运行 突然 被 破坏 、 所 有 正在 运行 的 事务 都 非 正常 终止 
等 。 其 特征 是 不 破坏 数据 库 但 内 存 中 数据 库 缓 冲 区 的 信息 全 部 丢失 。 

(3) 介质 级 故障 。 介 质 级 故障 也 称 为 硬 故 障 , 主 要 是 指 外 存 故 障 ,如 磁盘 损坏 、 磁 头 碰 
撞 、 操 作 系统 的 某 种 潜在 错误 和 瞬时 强 磁场 干扰 等 。 介 质 级 故障 恢复 策略 主要 是 装 人 数据 
库 发 生 介 质 故 障 前 某 个 时 刻 数据 副本 并 重 做 自 此 时 所 有 成 功 事务 ,将 这 些 事务 已 提交 的 结 
果 重 新 记 和 数据库。 

2. 故障 恢复 技术 

数据 故障 恢复 技术 就 是 元 余 技 术 , 即 利用 存储 在 系统 其 他 位 置 的 元 余数 据 来 重建 数据 
库 中 已 被 破坏 或 不 正确 的 那 部 分 数据 。 恢 复 机 制 涉及 的 关键 问题 如 下 。 

GD 建立 元 余数 据 方式 : 主要 技术 为 数据 备份 (backup) 和 登录 日 志文 件 (logging) 。 

@ 使 用 元 余数 据 策略 : 利用 元 余数 据 实 施 数据 库 恢复 。 

1) 数据 备份 与 日 志 

数据 备份 是 指 DBA 将 整个 数据 库 复 制 到 磁带 或 另 一 个 磁盘 上 保存 起 来 的 过 程 , 备 用 
的 数据 称 为 后 备 副本 或 后 援 副本 。 数 据 库 遭 到 破坏 后 可 以 将 后 备 副 本 重新 装 人 但 重 装 后 备 
副本 只 能 将 数据 库 恢 复 到 转 储 时 的 状态 。 

日 志文 件 (log) 是 用 来 记录 事务 对 数据 库 的 更 新 操作 的 文件 ,主要 分 为 以 记录 为 单位 和 
以 数据 块 为 单位 的 两 类 日 志文 件 。 

2) 基于 备份 和 日 志 的 故障 恢复 

基于 备份 与 日 志 的 数据 库 故障 恢复 原理 如 图 2-7 所 示 。 


事务 运行 | | Hr 
事务 始点 T。 ”最 新 存储 点 T。 故障 点 Tr 
(a) 
重 装备 份 副本 基于 日 志 重 构 
故障 恢复 | t HT 
事务 始点 T。 最 新 存储 点 To ”故障 点 Tr 
(b) 


图 2-7 数据 库 故 障 恢复 原理 











在 图 2-7 中 ,系统 在 T, 时 刻 停止 运行 事务 ,进行 数据 库 转 储 ; 在 Th 时 刻 转 储 完毕 ,得 
到 Tv 时 刻 的 数据 库 一 致 性 副本 ; 系统 运行 到 Ti 时 刻 发 生 故 障 ; 为 恢复 数据 库 , 首 先 由 
DBA 重 装 数据 库 后 备 副本 ,将 数据 库 恢复 至 Tu 时 刻 的 状态 ; 重新 运行 自 T 一 Ti 时 刻 的 所 
有 更 新 事务 ,把 数据 库 恢复 到 故障 发 生前 的 一 致 状态 。 

(1) 事务 级 故障 恢复 。 当 事务 在 运行 至 正常 终止 点 前 被 终止 时 ,由 恢复 子 系统 应 利用 
日 志文 件 撤销 (UNDO) 此 事务 已 对 数据 库 进行 的 修改 。 事 务 故障 恢复 由 系统 自动 完成 ,对 
用 户 透 明 ,不 需要 用 户 干预 。 

(2) 系统 级 故障 恢复 。 此 时 造成 数据 库 不 一 致 状态 的 原因 主要 是 未 完成 事务 对 数据 库 
的 更 新 已 写 人 数据 库 ; 已 提交 事务 对 数据 库 的 更 新 还 留 在 缓冲 区 没 来 得 及 写 和 数据库。 此 
时 ,可 通过 UNDO 故障 发 生 时 未 完成 的 事务 ,通过 REDO 已 完成 的 事务 。 系 统 故 障 的 恢复 
由 系统 在 重新 启动 时 自动 完成 ,不 需要 用 户 干预 . 

(3) 介质 级 故障 恢复 。 需 要 DBA 介入 ,其 主要 工作 是 重 装 最 近 转 储 的 数据 库 副本 和 有 
关 的 各 日 志文 件 副本 和 执行 系统 提供 的 恢复 命令 ,但 具体 的 恢复 操作 仍 由 DBMS 完成 。 
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关系 数据 库 技术 是 迄今 为 止 研究 最 为 完整 和 开发 最 为 成 熟 的 数据 管理 技术 ,其 核心 是 
关系 数据 模型 。 关 系数 据 模型 从 数学 原理 上 看 是 有 限 个 域 上 笛 卡 儿 乘 积 的 一 个 子 集 (这 种 
子 集 在 数学 中 称 为 “关系 ”, 这 也 是 “关系 数据 库 ” 中 “关系 ”一 词 的 由 来 ), 从 技术 上 看 是 进行 
必要 限制 的 规范 化 了 的 二 维 * 平 面 表 格 ”( 因 此 关系 数据 文件 也 称 为 “关系 表 ”) 。 关 系数 据 模 
型 在 具体 应 用 层面 的 实现 就 是 “关系 模式 ”, 具 体 而 言 就 是 根据 实际 要 求 设计 的 关系 表格 ; 
填写 了 实际 数据 后 就 成 为 “关系 实例 ”。 关 系数 据 库 只 有 一 个 统一 的 关系 数据 模型 ,但 对 应 
一 个 实际 应 用 ,就 会 有 一 个 或 多 个 数据 关系 模式 ; 一 个 关系 模式 通过 不 同 的 外 延 界定 就 可 
以 对 应 众多 的 关系 实例 。 例 如 ,所 有 关系 型 数据 库 (Oracle.DB2 和 SQL Server 等 ) 本 质 上 
都 是 基于 同一 个 关系 数据 模型 ; 给 定 其 中 一 个 系统 平台 ,建立 一 个 具体 的 计算 机 学 院 数据 
库 就 需要 定义 “教师 学生“ 教学 "和 “科研 ”等 关系 模式 ,而 模式 “教师 ”可 以 对 应 “软件 工程 
系 ”“ 网 络 工程 系 ” 等 具体 关系 实例 ,对 于 “学 生 ” 模 式 也 对 应 *2015 级 ”2016 级 ”和 “2017 级 ” 
等 关系 实例 。 

关系 数据 库 以 关系 模型 为 核心 ,在 关系 模型 基础 上 创建 各 类 关系 模式 ,导入 基于 各 类 关 
系 模式 的 实际 应 用 关系 实例 (关系 表 ) ,从 而 实现 了 关系 数据 的 有 效 管理 。 在 这 其 中 ,系统 级 
别 上 的 关系 模式 管理 机 制 尤为 重要 ,这 就 是 “三 级 模式 /两 级 映射 "的 关系 数据 库 体系 结构 。 
作为 一 个 管理 系统 首先 需要 建立 其 体系 结构 ,体系 结构 设计 需要 考虑 其 应 用 特性 。 数 据 库 
最 重要 的 应 用 特性 是 “共享 性 ”, 为 保障 共享 性 的 正确 及 有 效 实施 ,就 需要 将 数据 库 的 用 户 视 
图 层面 .逻辑 层面 和 物理 存储 层面 进行 适当 “隔离 ”也 就 是 需要 构建 数据 的 “独立 性 ”。 用 户 
层 与 逻辑 层 的 “隔离 ” 称 为 “逻辑 独立 性 ”; 用 户 层 和 存储 层 的 “隔离 ” 称 为 “物理 独立 性 ”。 关 
系数 据 库 通 过 “外 模式 ”( 子 模式 ) ,模式 (人 逻辑 模式 ) 和 内 模式 (物理 模式 ) 建 立 起 “三 级 模式 ”， 
通过 “外 模式 /模式 映射 "和 “模式 /内 模式 映射 "建立 起 “两 级 映射 "。 这 种 “三 级 模式 /两 级 映 
射 ”就 构成 了 关系 数据 库 的 体系 结构 ,其 中 “外 模式 /模式 映射 "保障 关系 数据 的 逻辑 独立 性 ; 
“模式 /内 模式 映射 "保障 物理 独立 性 。 现 有 的 关系 数据 库 都 具有 这 种 体系 结构 ,其 意义 可 以 
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类 比 计算 机 中 的 冯 “。 诺 依 曼 体系 结构 。 

关系 数据 库 的 核心 一 一 关系 数据 模型 建立 在 数学 基础 之 上 ,基于 关系 数据 模型 的 数据 
操作 也 就 能 够 使 用 相应 的 数学 运算 进行 描述 ,这 就 是 关系 运算 。 关 系 运算 是 关系 数据 库 语 
言 的 理论 基础 ,其 中 包括 “关系 代数 ”和 “关系 演算 ”, 前 者 可 以 看 作 是 数学 中 “集合 论 ” 的 应 用 
与 扩展 ,后 者 是 建立 在 “数理 逻辑 ”基础 之 上 的 。 只 有 掌握 关系 运算 理论 ,才能 深刻 理解 查询 
语言 的 本 质 并 且 熟 练 使 用 。 实 际 上 ,曾经 分 别 产 生 过 基于 “关系 代数 ”和 “关系 演算 ”的 关系 
数据 操作 语言 , 现 有 SQL 同时 基于 “关系 代数 ”和 “关系 演算 ”。 

作为 数据 库 发 展 历史 上 最 为 成 功 的 数据 操作 语言 ,SQL 具有 突出 的 特点 和 明确 的 优 
势 , 如 简单 易 用 、 非 过 程 化 和 与 宿主 语言 的 有 效 整合 等 。SQL 最 基本 的 功能 是 数据 管理 ,其 
中 主要 有 数据 定义 (数据 库 模 式 、 基 本 表 和 视图 、 存 储 过 程 和 触发 器 等 的 创建 、 修 改 与 撤销 )、 
数据 查询 (选择 、 投 影 与 连接 ) 及 数据 更 新 (插入 、 删 除 与 修改 )。 另 外 ,SQL 还 具有 数据 操纵 
功能 ,如 关系 数据 的 完整 性 维护 与 安全 性 保护 、 并 发 控制 与 故障 恢复 等 。 需 要 指出 的 是 ， 
SQL 与 宿主 语言 的 有 效 整合 一 一 嵌入 式 SQL 和 动态 SQL 在 数据 库 应 用 系统 开发 过 程 中 
具有 重要 的 作用 。 

数据 操作 (定义 ,查询 和 更 新 ) 是 所 有 关系 数据 库 都 必须 具有 的 基础 功能 ,而 数据 操纵 
(数据 库 保护 和 事务 管理 ) 则 属于 关系 数据 库 的 高 层次 机 制 。 数 据 库 保护 就 是 数据 库 的 完整 
性 和 安全 性 保护 ,完整 性 包括 数据 的 正确 性 和 一 致 性 ,其 具体 技术 实现 就 是 要 维护 关系 数据 
的 实体 完整 性 .参照 完整 性 和 用 户 定义 完整 性 ; 安全 性 是 为 防止 对 数据 库 的 恶意 攻击 和 破 
坏 ,从 数据 库 角度 而 言 ,“ 授 权 ” 机 制 是 关系 数据 安全 性 的 基本 保护 措施 。 实 际 应 用 通常 都 需 
要 进行 多 次 数据 操作 才能 完成 ,在 技术 实现 层面 ,这 “多 个 ”操作 需要 作为 一 个 “整体 ”对 待 ， 
这 里 “整体 ”的 含义 就 是 “原子 性 质 ”: 多 个 操作 “要 么 全 做 ,要 么 全 不 做 ”, 这 就 引入 了 “事务 ” 
概念 。“ 事 务 " 概 念 的 意义 在 于 它 为 关系 数据 库 的 “并 发 控制 "和 “故障 恢复 ”提供 了 一 种 有 效 
的 技术 实现 框架 ,在 此 框架 下 ,“ 并 发 控制 "可 以 通过 “封锁 ”机制 实现 ,“ 故 障 恢 复 ” 可 以 通过 
“备份 与 日 志 ” 机 制 实现 。 
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第 3 章 面向 对 象 数据 库 





随 着 计算 机 技术 发 展 和 应 用 需求 驱动 ,面向 对 象 数据 库 (ObjectrOriented DataBases， 
OODB) 受 到 人 们 的 广泛 关注 。OODB 技术 建立 在 面向 对 象 思想 方法 基础 之 上 ,以 将 静态 属 
性 与 动态 操作 为 封装 体 的 “对 象 "作为 数据 元 素 , 以 同型 对 象 的 集合 “类 ”作为 数据 存储 与 操 
作 的 基本 单元 ,更 加 符合 人 们 对 于 客观 世界 的 直观 认识 ,对 现实 世界 中 复杂 事物 具有 较 强 的 
语义 描述 能 力 , 同 时 也 具有 高 效 开 发 应 用 系统 和 实现 软件 重用 的 功能 ,能 够 在 传统 数据 库 技 
术 难 以 有 效 支 持 的 领域 获得 成 功 应 用 。OODB 研究 始 于 20 世纪 80 年 代 , 当 时 主要 是 针对 
关系 数据 库 的 一 些 弱 项 ,如 有 限 的 数据 类 型 .没有 基于 系统 的 全 局 标识 ,不 支持 用 户 或 系统 
可 扩充 的 函数 ,以 及 运算 和 难以 处 理 的 复杂 数据 对 象 等 。 虽 然 人 们 在 OODB 技术 的 概念 和 
原理 上 还 未 取得 完全 一 致 的 理解 ,但 大 都 认为 对 象 .类 、 继 承 和 封装 等 是 OODB 应 该 具有 和 
支持 的 基本 元 语 。 进 入 20 世纪 90 年 代 , 从 事 研制 面向 对 象 数 据 库 管理 系统 的 厂商 组 成 了 
ODMG 集团 (Object Database Management Group,ODMG) 以 着 手 制定 OODB 标准 ,并 于 
1993 年 8 月 公布 第 一 个 ODBMS 工业 化 标准 一 ODMG 一 1993。 此 后 ,又 相继 推出 
ODMG 1.2.ODMG 2.0(1997) 和 ODMG 3.0(2000)。 本 章 将 简要 介绍 基于 ODMG 3.0 的 
OODB 技术 。 





3.1 数据 管理 新 的 需求 


自 20 世纪 80 年 代 以 来 ,关系 数据 库 (Relational DataBases,RDB) 在 传统 商业 事务 处 理 
领域 获得 巨大 成 功 , 随 之 带动 了 其 他 各 领域 对 数据 库 技 术 应 用 需求 的 巨大 增长 。 这 些 领 域 
主要 包括 计算 机 辅助 设计 、 计 算 机 辅助 软件 工程 .计算 机 集成 制造 系统 .办公室 自动 化 系统 、 
地 理 信息 系统 、 知 识 库 系统 、 数 据 仓库 与 知识 发 现 、 多 媒体 系统 和 计算 机 网 络 系统 等 。 这 些 
新 领域 所 需要 的 数据 管理 功能 相对 于 传统 情形 具有 许多 新 的 特点 。 

(1) 存储 和 处 理 复杂 对 象 。 数 据 对 象 内 部 结构 复杂 ,相互 联系 具有 多 种 语义 ,难以 用 常 
规 关系 结构 进行 描述 与 表达 。 

(2) 多 样 数据 类 型 。 从 数据 逻辑 描述 来 说 ,数据 项 取 值 可 以 是 半 结 构 或 无 结构 数据 类 
型 ; 从 数据 应 用 背景 来 说 ,有 时 态 和 版 本 数据 类 型 .空间 数据 类 型 ,时空 数据 类 型 及 各 种 用 
户 自 定义 数据 类 型 等 。 

(3) 数据 常 驻 内 存 。 数 据 常 驻 内 存 中 包括 数据 管理 及 对 大 量 数据 对 象 的 存 取 和 计算 。 

(4) 数据 处 理 与 程序 语言 集成 。 由 于 数据 结构 的 复杂 化 和 实际 应 用 背景 的 不 断 拓展 ， 
需要 将 常规 程序 设计 语言 与 数据 库 语 言 进行 无 缝 整合 才能 完成 各 类 数据 管理 任务 。 

(5) 支持 复杂 事务 管理 。 支 持 长 事务 和 嵌 套 事务 处 理 。 


面 对 新 的 应 用 需求 ,RDB 的 弱项 或 缺陷 日 益 显 现 出 来 。 

(1) 数据 类 型 简单 。RDB 只 能 表达 、 存 储 和 处 理 确 定 的 某 些 简单 数据 类 型 ,不 易 根 据 
应 用 需求 扩展 数据 类 型 集合 。 对 于 各 种 复杂 类 型 依赖 用 户 自行 编写 的 应 用 程序 进行 个 别 构 
造 、 描 述 和 处 理 ,这 显然 与 数据 库 管理 数据 初衷 不 相符 合 。 

(2) 结构 与 行为 分 离 。RDB 主要 关注 数据 独立 性 和 存 取 效率 ,语义 表达 能 力 较 差 。 数 
据 实体 结构 存储 在 数据 库 当 中 ,而 数据 实体 行为 常常 需要 由 应 用 程序 另外 实现 。 这 种 结构 
与 行为 分 离 导 致 数据 库 中 复杂 结构 数据 只 能 通过 相关 应 用 程序 进行 解释 执行 ,限制 了 用 户 
对 数据 的 有 效 使 用 。 

(3) 查询 实现 复杂 RDB。 由 于 规范 化 的 基本 要 求 ,通常 需要 将 复杂 对 象 分 解 为 多 个 
基本 关系 表 进 行 处 理 , 逻 辑 结构 与 外 部 实用 场景 差别 较 大 ,由 此 建立 在 相应 逻辑 结构 之 
上 的 查询 实现 相当 复杂 。DBMS 需要 在 实现 数据 存储 透明 和 查询 优化 方面 付出 沉重 开发 
代价 。 

(4) 阻抗 失 配 。 代 价 之 一 就 是 “嵌入 式 ”SQL。 由 于 SQL 语言 面向 集合 ,基于 和 骨 和 人 式 应 
用 程序 语言 面向 记录 ,两 者 编程 模式 不 同 ,类 型 系统 各 异 , 需 在 相互 之 间 通 过 适当 方式 进行 
转换 , 即 会 出 现 “ 阻 抗 失 配 ”"。 解 决 “ 阻 抗 失 配 ”需要 使 用 较 多 的 应 用 程序 ,增加 了 用 户 负担 和 
系统 开销 。 

针对 RDB 的 不 足 及 为 支持 在 新 领域 中 的 应 用 ,经 过 实践 对 比 , 人 们 发 现 面向 对 象 技术 
与 数据 库 技术 相 结合 而 形成 的 对 象 数据 库 具 有 广阔 发 展 前 景 。 

首先 ,在 物理 和 逻辑 两 个 层面 上 ,通过 面向 对 象 技术 可 对 常规 面向 记录 的 数据 格式 进行 
复杂 语义 结构 描述 ,从 而 大 大 扩展 了 数据 库 技术 的 应 用 范围 。 

其 次 ,数据 管理 技术 的 复杂 化 意味 着 相应 安全 性 要 求 的 进一步 提升 。 基 于 对 象 数据 库 
能 够 以 更 为 自然 的 方式 在 抽象 层面 上 进行 结构 和 行为 封装 的 复杂 对 象 建 模 ,在 降低 用 户 使 
用 复杂 度 的 同时 ,也 为 复杂 数据 处 理 过 程 “ 自 动 提 供 了 可 靠 的 安全 性 保障 。 

基于 对 象 数 据 库 技术 研究 始 于 20 世纪 80 年 代 中 期 ,现在 已 经 取得 了 很 大 进展 ,成 为 数 
据 库 发 展 的 一 个 重要 方向 。 通 常 认为 ,对 象 数据 库 系统 应 当 具 有 下 述 基 本 功能 。 

@ 数据 模型 : 基于 对 象 . 封 装 .继承 和 多 态 等 概念 原理 进行 建 模 。 

@ 数据 语言 : 支持 消息 传递 ,提供 具有 完备 计算 能 力 的 数据 库 语言 。 

@ 数据 管理 : 提供 持久 化 对 象 和 长 事务 处 理 能 力 。 

@ 数据 相 容 : 兼顾 传统 关系 数据 管理 。 

最 后 ,从 对 象 数据 库 技术 发 展 实践 来 看 ,通常 有 着 下 述 3 种 研发 路 线 。 

@ 基于 RDB 的 面向 对 象 扩充 : 基本 点 是 建立 能 够 适应 现实 需求 数据 类 型 系统 。 

@ 基于 对 象 程序 语言 的 数据 库 扩充 : 基本 点 是 基于 C++ 或 Java 等 建立 相应 数据 库 语 
言 管理 数据 库 数据 。 

@ 全 新 对 象 数据 库 技术 : 创建 不 依赖 于 现 有 任何 技术 的 对 象 数据 库 系 统 。 

沿 着 第 一 个 方向 ,可 以 建立 对 象 关系 数据 库 (Object Relational Data Bases,ORDB) 系 
统 。 例 如 ,PostGreSQL 就 是 一 个 对 象 关系 数据 库 系 统 (ORDBMS) ,同时 一 些 代表 性 的 关系 
数据 库 也 支持 对 象 关系 模型 ,如 Oracle 数据 库 等 ; 沿 着 第 二 个 方向 ,可 以 建立 OODB 
(Object-Oriented Data Bases) 系 统 , 如 ONTOS、ORUON 等 ,它们 均 是 C++ 的 扩充 ,掌握 
C++ 的 人 们 都 可 以 方便 地 使 用 这 类 数据 库 系 统 ; 而 沿 着 第 三 个 方向 发 展 ,系统 全 新 ,难度 很 
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大 ,迄今 没有 太 大 进展 。 


3.2 阻抗 失 配 与 对 象 持久 


如 前 所 述 ,OODB 技术 主线 是 将 面向 对 象 程序 设计 语言 (如 C++ 或 Java) 进 行 数据 库 意 
义 下 的 扩展 ,使 其 成 为 一 种 有 效 的 OODB 语言 。 程 序 设计 语言 和 数据 库 语言 存在 着 较 大 差 
异 , 和 欲 将 两 者 整合 ,首先 需 解 决 由 于 相互 间 差 异 而 带 来 的 “阻抗 失 配 ?和 ”对 象 持久 ”问题 。 


3.2.1 数据 库 语言 与 程序 语言 差异 


数据 库 语言 和 高 级 程序 设计 语言 之 间 由 于 基本 着 眼 点 与 处 理 过 程 格 调 的 不 同 而 具有 较 
大 差异 ,将 两 者 整合 起 来 以 形成 一 种 面向 对 象 数据 库 的 语言 .需要 根据 两 者 差异 而 采用 相应 
的 技术 措施 。 

1. 查询 语言 与 程序 语言 的 阻抗 适 配 

经 典 数据 库 查询 语言 (如 SQL) 是 由 系统 自动 选择 路 径 的 非 过 程 性 语言 ,同时 具有 面 
向 集合 的 操作 方式 ,这 就 与 高 级 程序 设计 语言 (如 C++) 面 向 单个 数据 的 过 程 性 操作 方式 
之 间 出 现 不 易 协 调 的 问题 ,通常 称 为 “阻抗 不 匹配 ?或 “阻抗 失 配 ?。 在 RDB 技术 中 , 艇 入 
式 SQL 的 着 眼 点 就 是 要 解决 这 种 不 可 避免 的 阻抗 失 配 问 题 , 但 此 时 也 带 来 两 个 不 容 忽 视 
的 问题 。 

(1)“ 对 象 " 和 “元 组 ”之 间 的 技术 转换 在 类 型 系统 之 外 进行 ,系统 难以 进行 有 效 控制 ,从 
而 会 增加 出 现 未 能 及 时 检测 到 的 转换 错误 风险 及 数据 安全 性 问题 。 

(2)“ 对 象 "? 和 “元 组 ”之 间 的 技术 实现 需要 大 量程 序 代码 支撑 ,相应 转换 过 程 会 占用 相 
当 多 的 系统 资源 ,从 而 会 对 提升 系统 运行 效率 产生 较 大 影响 。 

在 OODB 技术 当中 ,解决 阻抗 不 匹配 的 基本 思路 是 将 数据 库 查询 语言 完全 集成 到 面向 
对 象 程序 设计 语言 当中 ,共用 相同 的 类 型 系统 ,使 得 对 象 在 数据 库 创 建 和 存储 过 程 中 不 需要 
任何 显 式 的 类 型 与 格式 转换 ,从 而 做 到 任何 所 需 转 换 的 实现 对 于 用 户 来 说 都 是 透明 的 。 这 
种 将 “查询 ”无 颖 集成 到 “操作 ”过 程 中 的 技术 路 线 就 是 将 相应 的 宿主 语言 (如 C++ ) 进 行 数据 
持久 化 ,或 者 说 将 对 象 持久 化 。 

2. 持久 化 程序 设计 语言 

面向 对 象 程序 设计 语言 (如 C++) 的 基本 元 语 是 对 象 和 类 的 概念 及 它 的 若干 结构 关 
联 ,但 此 时 对 象 具 有 “瞬时 ”性 特征 , 即 对 象 只 在 程序 执行 期 间 存在 于 非 永久 性 存储 器 ( 缓 
冲 区 或 主 存 ) 当中 ,在 程序 执行 完成 后 即 可 消失 ,就 像 C++ 中 各 类 变量 在 程序 结束 后 立刻 
消失 一 样 。 

数据 库 作 为 保存 数据 的 电子 容器 ,其 基本 要 求 就 是 数据 具有 “持久 ”性 , 即 当 创建 数 
据 和 操作 数据 的 程序 停止 之 后 ,所 得 到 的 结果 数据 依然 需要 驻 留 在 计算 机 (外 部 存储 器 ) 
当中 。 

在 OODB 中 ,对 象 作为 数据 应 当 是 持久 性 对 象 .需要 保存 在 永久 存储 器 (磁盘 ) 中 , 它 不 
仅 在 程序 执行 过 程 中 存在 ,程序 结束 后 还 必须 存在 。 因 此 ,将 数据 库 查 询 语言 集成 到 程序 设 
计 语 言 的 技术 实现 就 需要 以 一 种 持久 化 程序 设计 语言 为 基本 出 发 点 ,这 通常 都 是 对 某 种 对 
象 程序 设计 请 言 (如 C++ 或 Java) 进 行 对 象 持久 化 扩充 而 展开 研发 。 


3.2.2 对 象 和 对 象 标识 持久 化 


OODB 中 的 对 象 持久 化 包括 对 象 自 身 持久 化 和 对 象 标识 符 持久 化 。 

1. 对 象 持久 化 

对 象 持久 化 通常 可 以 通过 下 述 途 径 实现 。 

(1) 按 类 持久 。 直 接 声 明 所 创建 的 一 个 类 具有 持久 性 ,这 在 逻辑 意义 上 就 意味 该 类 所 
有 对 象 实例 在 默认 情况 下 都 是 持久 对 象 ,而 未 加 以 持久 声明 的 各 个 非 持 久 类 中 对 象 实例 都 
是 瞬时 的 。 但 在 实际 应 用 中 ,一 个 类 中 的 对 象 实例 中 可 能 存在 需要 具有 持久 性 和 不 需要 具 
有 持久 性 的 多 种 情形 ,此 种 “ 按 类 持久 ”方式 显得 不 够 灵活 。 

(2) 按 对 象 持 久 。 为 处 理 “ 按 类 创建 "灵活 性 欠缺 问题 ,采用 “ 按 对 象 持久 ”技术 ,此 时 可 
分 为 以 下 两 种 情形 处 理 。 

Q@ 创建 时 持久 : 扩展 创建 瞬时 对 象 的 语法 为 新 的 用 于 创建 持久 对 象 的 语法 。 在 对 象 
创建 时 ,如 果 是 按照 持久 对 象 语法 定义 的 ,该 对 象 在 相应 过 程 中 就 为 持久 对 象 ; 否则 就 是 
“瞬时 ?对 象 。 这 是 一 种 在 创建 时 就 确定 对 象 是 否 持久 的 方式 。 

@ 应 用 中 持久 : 在 创建 时 ,所 有 对 象 都 按照 程序 设计 语言 中 原 有 机 制定 义 为 瞬时 对 
象 ,而 当 一 个 对 象 在 程序 结束 后 需要 持久 存在 时 ,就 在 程序 结束 前 显 式 地 给 予 适当 标志 而 将 
其 标识 为 持久 对 象 。 这 是 一 种 将 决定 对 象 持久 与 否 推迟 到 对 象 创建 之 后 的 方式 ,在 实用 中 
会 更 具 灵 活 与 方便 。 

(3) 按 可 达 性 持久 。 将 一 个 或 多 个 对 象 声 明 为 ( 根 ) 持 久 对 象 ,而 对 于 其 他 对 象 , 则 根据 
相关 继承 或 组 合 语义 考查 其 能 否 从 一 个 根 持久 对 象 直接 或 间接 引用 来 决定 持久 与 否 。 此 
时 ,所 有 由 “ 根 ” 持 久 对 象 引 用 的 对 象 都 是 持久 的 ,而 这 些 持久 对 象 的 再 次 引用 也 是 持久 的 ， 
即 持久 对 象 到 根 持久 对 象 是 可 达 的 。 这 种 方式 在 理论 上 只 需 声明 根 结 点 对 象 持久 即 可 ,由 
相应 语义 树 就 可 以 方便 地 得 到 所 需要 的 持久 性 数据 结构 ; 但 在 技术 实现 方面 ,由 于 按照 引 
用 路 径 判 断 某 个 对 象 是 否 持 久 实际 上 是 一 种 “遍历 "查找 过 程 ,可 能 需要 较 高 的 系统 开销 
代价 。 

2. 对 象 标识 持久 化 

在 面向 对 象 程序 设计 语言 中 ,创建 一 个 对 象 时 ,系统 返回 一 个 瞬时 对 象 标识 符 ,该 标识 
符 只 在 程序 执行 过 程 中 有 意义 ,程序 结束 ,对 象 删除 ,相应 标识 符 也 就 消失 。 因 此 ,在 创建 持 
久 对 象 的 同时 还 需要 赋予 对 象 一 个 持久 性 标识 符 。 注 意 到 在 C++ 中 ,瞬时 标识 符 实际 上 就 
是 一 个 内 存 指 针 ,而 一 个 对 象 与 其 存储 空间 的 关联 可 能 会 随 着 时 间 而 发 生变 化 ,为 应 对 这 种 
变换 ,对 象 标识 持久 程度 可 分 为 以 下 4 种 情形 。 

(1) 过 程 内 持久 标识 符 。 标 识 符 只 在 单个 过 程 执行 期 间 内 具有 持久 性 。 例 如 ,过 程 内 
一 个 局 部 变量 的 标识 符 就 是 如 此 。 

(2) 程序 内 持久 标识 符 。 标 识 符 只 在 程序 或 查询 执行 过 程 中 持久 。 例 如 ,一 个 程序 中 
全 局 变量 的 标识 就 只 在 该 程序 运行 中 有 效 。 

(3) 程序 间 持 久 标 识 符 。 标 识 符 只 在 一 个 程序 执行 到 另 一 个 程序 之 间 持 久 。 指 向 磁盘 
上 文件 系统 数据 指针 提供 了 程序 之 间 标 识 , 当 数据 在 文件 系统 中 的 存储 方式 发 生 改 变 时 ,其 
相应 标识 可 能 也 会 发 生 改变 。 

(4) 持久 标识 符 。 标 识 符 不 仅 在 各 个 程序 执行 期 间 ,而且 在 数据 结构 重组 期 间 都 是 持 
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久 的 。OODBS 主要 考虑 持久 标识 符 。 

在 C++ 语言 的 持久 化 拓展 中 ,持久 对 象 的 持久 标识 符 通常 使 用 "持久 化 指针 ”, 其 在 程序 运 
行 结束 后 依然 有 效 ,同时 也 跨越 了 某 种 形式 的 数据 重组 ,用 户 在 使 用 C++ 过 程 中 可 以 像 使 用 内 
存 指针 一 样 使 用 持久 化 指针 ,在 逻辑 上 可 将 持久 化 指针 看 作 是 指向 数据 库 中 对 象 数据 的 指针 。 


3.2.3 持久 对 象 存储 和 查询 


OODB 需要 存储 持久 对 象 。 持 久 对 象 进 入 数据 库 时 ,就 要 将 其 标识 转换 为 一 个 永久 的 
唯一 OID, 由 此 才 可 以 使 得 该 对 象 在 数据 库 中 真正 "持久 ”。 如 果 需 要 将 该 对 象 由 数据 库 取 
到 内 存 , 则 要 执行 相反 操作 , 即 当 某 个 对 象 读 入 内 存 后 将 其 相应 OID 类 型 指针 所 指向 的 逻 
辑 磁 盘 地 址 转换 为 主 存 中 的 实际 存储 地 址 。 

1. 持久 对 象 的 存储 

从 逻辑 上 来 看 ,类 中 对 象 实例 的 数据 部 分 (如 对 象 的 属性 和 关联 ) 需 要 针对 相应 的 单个 
对 象 进行 单独 存储 ,类 中 方法 代码 则 需要 作为 OODB 数据 模式 重要 组 成 部 分 而 统一 存储 ， 
但 两 者 都 是 存在 同一 个 存储 器 系统 当中 ,这 就 类 似 于 RDB 中 将 关系 数据 表 和 相应 存储 过 程 
都 存储 在 一 个 系统 当中 。 在 实际 处 理 时 为 了 避免 将 程序 编译 器 这 样 大 规模 系统 集成 到 数据 
库 当 中 而 使 得 系统 结构 变 得 更 为 庞大 和 复杂 ,通常 在 技术 实现 上 将 类 方法 代码 存储 在 与 数 
据 库 分 离 的 适当 文件 系统 当中 。 

2. 持久 对 象 的 查询 

OODBS 在 查询 对 象 数据 查询 过 程 中 提供 下 述 3 种 数据 定位 方式 。 

(1) 根据 对 象 名 称 访问 对 象 。 每 个 对 象 分 配 有 一 个 如 同文 件 名 那样 的 名 称 , 系 统 通过 
对 象 名 称 定位 所 需要 查询 的 对 象 。 对 象 的 命名 和 对 象 名 称 管理 需要 占用 较 多 系统 资源 , 因 
此 该 方法 在 数据 库 中 对 象 数量 较 小 时 比较 有 效 ,而 当 对 象 数量 较 大 时 就 难以 适应 。 

(2) 根据 对 象 标识 查找 对 象 。 提 取 对 象 标识 符 或 持久 化 指针 并 将 其 存储 在 与 数据 库 分 
离 的 外 部 文件 当中 ,系统 根据 对 象 标识 符 定位 对 象 数据 。 与 对 象 名 称 不 同 ,对 象 标识 不 必 具 
有 用 户 记忆 性 ,甚至 可 以 作为 指向 数据 库 内 部 的 物理 指针 而 存在 。 

(3) 根据 对 象 集合 体检 索 对 象 。 将 对 象 存储 为 一 个 诸如 集合 (set) ,多 集 (multiset, 可 具 
有 相同 元 素 值 的 集合 ) 和 列表 (ist, 具 有 不 同 元 素 值 的 有 序 集合 ) 的 集合 体 , 并 允许 使 用 程序 
在 其 上 反复 循环 搜索 所 需 对 象 。 集 合体 的 一 个 常用 形式 是 “类 外 延 ”(class extent) ,这 是 一 
个 属于 给 定 类 的 所 有 对 象 之 集 。 当 对 一 个 类 定义 了 类 外 延 之 后 ,创建 具体 对 象 后 ,该 对 象 会 
被 自动 插入 到 类 外 延 当 中 ; 而 当 对 象 被 删除 时 ,就 会 自动 将 其 由 类 外 延 移 出 。 类 外 延 的 意 
义 在 于 可 以 对 各 个 对 象 定义 语义 标识 一 一 键 (key) ,从 而 可 以 像 看 待 关系 表 那 样 看 待 类 , 像 
检查 一 个 关系 表 中 所 有 元 组 那样 检查 类 中 的 所 有 对 象 类 。 

大 多 数 OODBS 都 支持 上 述 3 种 数据 库 访问 方法 。 通 常 对 涉及 的 所 有 对 象 都 赋予 对 象 
标识 符 , 只 对 类 外 延 或 集合 体 中 及 其 他 需要 特定 选择 的 对 象 赋予 对 象 名 称 ,而 对 绝 大 多 数 对 
象 都 没有 给 予 对 象 名 。 在 实际 应 用 中 ,多 数 系统 只 对 持久 对 象 维护 相应 的 类 外 延 。 


3.2.4 面向 对 象 数据 模型 


面向 对 象 数 据 模 型 (Object-Oriented Data Model,OODM) 是 基于 面向 对 象 思想 与 方法 
构建 的 数据 库 逻 辑 模 型 ,可 以 通过 面向 对 象 数据 结构 、 建 立 在 数据 结构 之 上 的 数据 操作 和 基 





于 数据 结构 的 相关 约束 予以 表示 和 说 明 。 

(1) 数据 结构 。 数 据 结构 主要 是 指 对 象 和 类 自身 原 有 的 内 在 结构 ,如 对 象 的 属性 与 方 
法 封装 .类 的 基于 继承 机 制 的 层次 结构 和 基于 组 合 机 制 的 复合 结构 ,以 及 类 方法 的 重 载 与 联 
编 等。 实际 上 ,人 们 研制 对 象 数据 库 数据 的 初衷 就 是 注重 这 种 远 比 原 有 数据 库 中 数据 结构 
(格式 化 .关系 型 的 逻辑 结构 及 E-R 甚至 EE-R 的 概念 结构 等 ) 具 有 更 为 强大 语义 表达 能 力 
的 面向 对 象 数据 结构 形式 。 

(2) 数据 操作 。 类 中 定义 的 各 类 方法 就 构成 了 基于 对 象 数据 结构 的 数据 操作 。 由 于 这 
些 操作 是 采用 功能 强大 的 面向 对 象 程序 设计 语言 编写 , 相 比 于 常规 的 数据 库 操作 实现 ,可 以 
处 理 更 为 广泛 和 更 为 复杂 的 数据 应 用 问题 。 

(3) 数据 约束 。 从 本 质 上 来 看 ,数据 约束 也 是 一 种 方法 的 表示 ,因此 可 以 通过 定义 和 调 
用 适当 的 类 方法 实现 相关 的 数据 约束 。 

由 此 可 见 , 从 理论 上 来 讲 ,OODM 实际 上 就 是 对 面向 对 象 程序 设计 语言 中 各 类 元 语 和 
重要 机 制 进行 适当 的 数据 库 语义 解释 。 现 今 一 种 通行 的 规范 化 语义 释义 和 机 制 重 编 就 是 
ODMG 标准 。 


3.3 对象 和 类 的 数据 库 释 义 


如 前 所 述 ,OODM 从 形式 上 来 看 就 是 “借鉴 ”面向 对 象 方法 中 的 基本 概念 和 机 制 ,按照 
数据 库 数据 模型 要 求 进行 “ 重 编 *"。 由 于 数据 库 语 言 和 程序 设计 语言 自身 的 差异 ,特别 是 数 
据 库 中 数据 的 “持久 性 ”和 程序 设计 语言 中 数据 的 “瞬时 性 ”存在 的 鸿沟 ,两 者 整合 的 前 提 就 
是 程序 设计 语言 的 持久 化 问题 。 此 外 ,由 于 数据 库 语 言 与 程序 设计 语言 原始 出 发 点 和 技术 
格调 的 不 同 ,需要 按照 数据 库 请 义 对 面向 对 象 方法 中 的 基本 元 语 和 重要 机 制 进行 必要 的 * 释 
义 ”。 这 种 释义 首先 要 规范 严明 以 便 为 人 们 所 普遍 接受 ; 其 次 要 面向 OODB 的 技术 实现 ， 
为 此 在 技术 层面 上 要 有 明确 的 数据 库 技术 指向 。 基 于 ODMG 的 C++ 标准 就 是 这 样 一 套 对 
象 元 语 的 数据 库 释 义 规范 。 


3.3.1 ODMG 标准 与 核心 概念 


面向 对 象 数 据 建 模 多 采用 基于 面向 对 象 程序 设计 诸 言 的 持久 性 扩充 。 面 向 对 象 程序 设 
计 语 言 主要 有 Simula、Smalltalk、C++ 和 Java。 其 中 ,形成 面向 对 象 数 据 建 模 标准 的 主要 是 
基于 C++ 的 ODMG 标准 。 

1. ODMG 标准 

成 立 于 20 世纪 80 年 代 的 ODMG(Object Data Management Group) ,在 1993 年 颁布 了 
OODB 工业 化 标准 一 一 ODMG1.0, 完 成 了 对 C++ 的 数据 库 功 能 扩充 ; 接着 ,又 在 1997 年 和 
2000 年 分 别 推出 ODMG2.0 和 ODMG3.0。ODMG 标准 主要 由 以 下 3 个 部 分 组 成 。 

(1) OSL。OSL 又 可 分 为 对 象 定义 语言 (Object Definition Language,ODL) 和 对 象 交 
互 格式 (Object Interchange Format,OIF) 两 个 组 成 部 分 ,其 中 ODL 作用 类 似 于 关系 数据 库 
中 的 DDL 语言 ,用 于 创建 数据 库 对 象 ; OIF 基本 功能 是 为 ODL 所 创建 的 对 象 类 型 快速 创 
建 相应 对 象 实例 ,同时 还 可 以 为 对 象 实例 赋予 初 值 。 

(2) OQL。OQL 为 对 象 数 据 查询 语言 ,与 SQL 类 似 , 用 于 对 象 数据 基本 操作 。 作 为 数 
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据 库 系统 与 用 户 之 间 的 主要 接口 ,OQL 没有 SQL 中 的 数据 更 新 语句 ,这 是 由 于 数据 更 新 可 
以 看 作 是 方法 ,在 OODB 中 ,这 些 功 能 都 由 ODMG 语言 绑 定 实现 。 

(3) 宿主 语言 绑 定 。 在 过 程 化 程序 设计 语言 内 部 使 用 ODL 和 OQL, 实 现 C++、 
Smalltalk 和 Java 绑 定 。 

需要 说 明 的 是 ,ODMG 已 从 2002 年 开始 就 停止 了 继续 发 展 。 这 说 明 OODB 自 诞生 之 
日 起 一 直 都 没有 能 够 取得 像 RDB 那样 的 商业 成 功 ,但 这 并 不 意味 着 OODB 的 失败 ,实际 
上 ,对 于 各 类 新 型 数据 如 网 络 数据 和 多 媒体 数据 等 持久 性 管理 存储 和 操作 运算 的 需求 依然 
存在 并 且 还 有 增长 ,很 多 具有 高 复杂 度 和 高 性 能 要 求 的 数据 应 用 需要 运行 在 OODB 之 上 ， 
此 时 采用 基于 SQL 的 RDB 会 付出 很 高 的 性 能 代价 。 特 别 是 ODMG 将 数据 库 语言 和 程序 
设计 语言 这 两 种 有 着 很 大 差异 的 语言 进行 有 效 整合 ,这 为 数据 库 技术 新 发 展 在 理论 和 技术 
上 提供 了 成 功 先例 和 基本 借鉴 。 这 也 可 以 看 作 是 人 们 将 OODB 视 为 继 RDB 之 后 第 三 代 或 
新 一 代数 据 库 重要 代表 的 原因 所 在 。 

2. ODMG 元 语 

划分 数据 库 中 数据 的 基本 粒度 是 建立 相应 数据 模型 的 基本 支撑 。 例 如 ,在 关系 数据 模 
型 (RDM) 中 ,其 数据 的 逻辑 粒度 为 元 组 .关系 表 和 数据 库 文件 ,而 其 数据 的 技术 处 理 粒度 为 
属性 项 .元 组 .关系 表 和 数据 库 文 件 。 对 于 对 象 数据 模型 (OODM) 来 说 ,其 数据 的 逻辑 粒度 
分 别 为 对 象 .类 和 数据 库 文件 ,而 数据 技术 粒度 为 状态 (属性 和 联系 )、 操 作 ( 方 法 )\、 对象 ( 文 
字 ) 、 类 和 接口 等 。 同 时 ,数据 模型 的 核心 是 所 涉及 数据 之 间 的 相互 关联 , 即 数据 结构 ,RDM 
在 不 同 关系 表 中 元 组 之 间 的 关联 是 双向 m : n 联系 ,不 同 关系 表 之 间 是 “外 键 " 联 系 ; 对 于 
OODM ,不 同类 中 对 象 之 间 的 关联 也 是 双向 m : n 联系 ,而 不 同类 之 间 则 主要 是 “继承 ”和 
“组 合 ” 联 系 ,以 及 由 此 而 产生 的 面向 对 象 精髓 “多 态 ” 机 制 。 基 于 ODMG 工业 标准 ,OODM 
需要 在 数据 库 的 语义 框架 中 对 数据 元 素 " 对 象 ", 以 及 “类 ”和 相应 数据 关联 进行 必要 的 逻辑 
界定 和 技术 处 理 。ODMG 中 主要 有 下 述 5 个 核心 概念 。 

(1) 对 象 和 文字 。 从 技术 处 理 角度 来 看 ,ODMG 进一步 将 常规 逻辑 语义 上 的 “对 象 " 明 
确 区 分 为 “对 象 " 和 “文字 ”两 种 情形 。 

@ 对 象 : 具有 了 唯一 标识 符 ,无 论 对 象 是 存储 在 外 存 中 还 是 在 内 存 中 ,相应 对 象 标 识 符 
在 对 象 整 个 生命 周期 中 都 有 效 。 作 为 基本 数据 结构 ,对 象 是 存储 和 操作 的 基本 单元 。 

@ 文字 diteral) : 没有 标识 符 ,一 般 不 能 单独 作为 数据 粒度 存在 ,需要 嵌入 在 相应 对 象 
当中 作为 对 象 成 分 (如 属性 值 等 ) 使 用 ,使 用 过 程 中 文字 值 通常 也 不 能 改变 。 

(2) 类 型 。 具 有 相同 特征 和 方法 的 对 象 ,以 及 具有 相同 特征 的 文字 都 可 以 被 划分 为 类 
型 (type) ,同一 类 型 的 对 象 或 文字 具有 相同 的 描述 形态 。 在 ODMG 中 ,类 型 定义 通常 由 一 
个 外 部 声明 和 若干 实现 组 成 。 

(3) 状态 。 由 于 数据 查询 的 需要 不 同 于 常规 对 象 情形 ,数据 库 语义 下 的 对 象 静态 性 质 
除了 对 象 的 属性 外 ,还 需要 添加 不 同类 之 间 及 对 象 之 间 双 向 的 “m : n” 联 系 。“ 属 性 ” 
(attribute) 和 “联系 ”(relationship) 就 构成 了 数据 库 意义 下 对 象 的 静态 特征 描述 ,这 在 
ODMG 中 称 为 对 象 的 状态 (states) 。 

a 属性: 属性 不 看 作对 象 ,作为 单一 类 型 , 它 没有 对 象 标识 ,也 不 定义 属性 的 属性 或 属 
性 之 间 的 联系 。 

@ 联系 : 联系 定义 在 两 个 不 同类 型 (对 象 集合 ) 之 间 ,是 一 种 双向 的 二 元 联系 (有 3 种 联 





系 方式 分 别 为 1: 1、1 : n、m : n)。 由 于 是 双向 联系 ,因此 数据 创建 中 的 联系 需要 成 对 出 现 。 
另外 ,联系 需要 具有 对 象 标识 可 引用 的 实例 。 由 于 文字 没有 对 象 标识 ,因此 不 能 出 现在 联系 
当中 。 

(4) 操作 。 对 象 行为 通过 一 组 操作 (operation) 定 义 。 由 于 需要 考虑 到 类 之 间 的 继承 与 
组 合 ,因此 定义 对 象 行为 时 还 需要 考虑 操作 的 多 态 机 制 , 其 中 包括 覆盖 和 重 载 等 基本 技术 。 
需要 注意 的 是 ,操作 需要 与 一 个 且 只 能 与 一 个 类 型 相关 联 。 操 作 具 有 输入 和 输出 参数 ,并 且 
可 以 返回 特定 类 型 的 结果 。 

(5) ODL。 对 象 定义 语言 。 系 统 利 用 ODL 定义 对 象 数据 管理 系统 的 模式 , 它 所 存储 的 
对 象 都 是 模式 中 定义 类 型 的 实例 , 即 对 象 ,这 些 对 象 可 以 供 多 个 应 用 程序 共享 。 

以 下 分 别 讨 论 对 象 和 类 的 基本 构成 。 


3.3.2 7 对 入 与 文字 


对 象 是 面向 对 象 思想 中 最 为 基本 的 原始 概念 ,也 是 一 个 伞 形 概念 。ODMSG 标准 对 其 进 
行 完 整 的 数据 库 请 义 解释 。 

1. 对 象 概念 

面向 对 象 方法 中 ,对 象 是 一 个 将 静态 属性 和 动态 方法 整合 的 封装 体 ,通过 消息 与 外 部 进 
行 关联 。 

1) 对 象 

ODMG 中 的 对 象 由 变量 (属性 )、 函 数 (方法 ) 和 消息 3 个 特性 组 成 。 

(1) 变量 : 包含 对 象 数据 ,相当 于 E-R 模型 中 的 属性 ,也 称 为 对 象 的 状态 。 

(2) 函数 : 实现 一 个 消息 的 代码 ,一 个 方法 返回 一 个 值 作为 对 消息 的 反馈 ,也 称 为 行为 
或 方法 。 

(3) 消息 : 对 象 所 能 响应 的 每 个 消息 具有 若干 参数 ,对 象 接受 消息 后 应 做 出 消息 的 





响应 。 
对 象 的 属性 和 行为 (方法 ) 需 要 进行 封装 (encapsulation) ,对 象 之 间 的 相互 作用 通过 发 
送 和 执行 消息 完成 ,以 此 保证 使 用 者 只 能 看 到 对 象 封装 界面 上 的 信息 ,对 象 内 部 对 使 用 者 隐 
项 ,其 目的 在 于 将 对 象 使 用 者 和 对 象 设计 者 分 隔 开 来 。 

在 ODMG 标准 中 ,同时 考虑 对 象 的 临时 (transient) 和 持久 (persistent) 两 种 生存 期 
(lifetime) 。 如 前 对 象 持久 性 所 述 ,对 象 生存 期 可 以 根据 实际 情况 采用 灵活 方式 进行 瞬时 性 
或 持久 性 确定 。 在 RDB 中 ,使 用 SQL 定义 的 关系 实例 都 是 持久 的 ,使 用 高 级 编程 语言 定义 
的 类 型 都 是 临时 的 ,而 且 通 常 使 用 SQL 来 定义 和 处 理 永 久 数据 元 素 , 使 用 高 级 程序 设计 语 
言 定 义 和 处 理 临时 数据 元 素 。 在 ODMG 中 ,临时 对 象 与 持久 对 象 创建 与 处 理 至 少 在 逻辑 
层面 上 对 于 用 户 都 是 透明 的 。 

2) 对 象 标 识 

每 个 对 象 都 应 具有 一 个 对 象 标识 符 (OID) ,这 是 对 象 在 系统 范围 内 的 唯一 标识 ,其 意义 
有 以 下 两 点 。 

(1) 在 实际 存 取 过 程 中 区 分 硬盘 中 同一 个 存储 区 (storage domain) 中 的 各 个 对 象 。 

(2) 在 类 的 继承 和 组 合 关系 中 实现 间接 调用 ,提升 系统 效率 和 安全 性 保障 ,避免 逻辑 
循环 。 
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对 象 标识 符 在 对 象 创建 时 由 系统 自动 产生 ,在 概念 层面 上 与 用 户 定 义 的 对 象 状态 和 操 
作 相互 独立 ,也 与 具体 应 用 无 关 。 对 象 标 识 一 旦 生成 ,即使 对 象 状态 发 生变 动 也 不 可 改变 ， 
以 保证 状态 改变 前 后 都 看 作 是 同一 对 象 。 用 户 可 以 查询 对 象 标识 ,但 不 可 改变 对 象 标识 的 
具体 取 值 。 

对 象 还 可 拥有 名 称 (Name) ,应 用 程序 可 以 使 用 对 象 名 称 来 引用 对 象 ,系统 将 对 象 名 称 
映射 到 对 象 标识 符 , 进 而 定位 到 相应 对 象 。 对 象 名 称 不 同 于 对 象 的 键 ,不 在 对 象 所 属 类 型 的 
语义 范畴 ,从 而 在 系统 中 通常 也 不 具有 唯一 性 。 一 般 而 言 , 名 称 用 作 数 据 库 中 数据 语义 人 
口 , 系 统 通过 对 象 名 称 定位 对 象 。 管 理 大 量 名 称 将 消耗 系统 资源 ,因此 不 是 所 有 对 象 都 需要 
赋予 名 称 。 

3) 对 象 状态 

从 组 成 上 来 看 ,对 象 具 有 3 个 基本 要 素 , 即 属性 .操作 和 联系 。 其 中 ,属性 和 操作 表明 单 
个 对 象 的 特质 ,联系 描述 不 同类 中 各 个 对 象 的 关联 。 数 据 结构 实际 就 是 数据 之 间 的 关系 。 
在 OODM 中 ,由 于 数据 的 逻辑 粒度 为 对 象 和 类 ,因此 数据 之 间 的 关系 也 分 为 对 象 之 间 的 联 
系 和 类 之 间 的 联系 两 个 层面 。 类 之 间 的 联系 主要 是 类 的 继承 与 组 合 关系 ,这 可 以 看 作 是 “ 模 
式 ” 之 间 的 关联 ; 对 象 之 间 的 联系 实际 上 就 是 关系 模型 中 涉及 “ 互 逆 "遍历 的 mm : n 联系 ,而 
这 种 基于 双向 遍历 的 关系 对 于 数据 查询 非常 必要 ,因为 数据 查询 的 一 个 基本 要 求 就 是 查找 
满足 查询 要 求 的 所 有 数据 而 不 是 其 中 的 个 别 或 某 些 数据 。 如 前 所 述 , 在 RDM 中 ,这 种 遍历 
关联 是 和 属性 描述 分 开 处 理 的 ,但 在 OODM 中 ,由 于 两 者 都 属于 数据 的 静态 性 质 ,为 了 与 
操作 (方法 ) 这 种 动态 性 质 相 区 别 ,ODMG 标准 中 将 其 统称 为 状态 (state)。 从 类 型 观点 来 
看 ,属性 和 联系 都 是 “状态 ”类 型 的 两 个 子 类 型 。 

Q@ Attribute 子 类 型 : 描述 对 象 属性 ,属性 取 值 都 是 文字 。 

@ Relationship 子 类 型 : 描述 不 同类 型 或 同一 类 型 中 非 文字 对 象 之 间 的 二 元 关系 , 表 
示 基 于 is associated with 的 引用 (reference) 语 义 , 刻 画 了 对 象 中 的 一 种 “相等 ”关联 (equal 
association) 。 联 系 参与 者 是 对 象 ,因此 联系 取 值 只 能 是 OID 及 其 集合 。 

例如 ,在 学 生 与 课程 两 个 类 型 的 对 象 之 间 存 在 一 种 选课 take 和 被 选 taken-by 的 m:n 
联系 。 这 种 二 元 联系 可 定义 为 : 





interface Student 
relationship Set(Course)take inverse Course: :taken — by, 
了 


以 及 

interface course 

二 

relationship Set(Student)taken - by take inverse Student: :take 

二 

上 述 定义 中 ,take 的 类 型 为 Set(Course) , 即 某 位 学 生 所 选课 程 的 OID 集合 。taken-by 
的 类 型 为 Set(Student) , 即 选修 某 门 课程 所 有 学 生 的 OID 集合 。 通 过 take 可 使 用 导航 式 方 
式 查询 一 个 学 生 的 所 有 选课 ;, 通过 teken-by 可 使 用 导航 方式 查询 选修 某 一 门 课程 的 所 有 学 
生 。 这 里 ,通常 将 take 和 taken-by 称 为 联系 的 遍历 路 径 (traversal paths)。 


如 果 分 别 单独 设立 take 和 taken-by 两 个 互 逆 遍 历 路 径 , 有 可 能 带 来 一 致 性 维护 方面 的 
问题 。 当 某 学 生 退 选 一 门 课程 时 ,不 仅 需 要 修改 对 应 学 生 对 象 中 take 遍历 路 径 , 还 需要 修 
改 相 应 课程 对 象 中 taken-by 遍历 路 径 。 如 果 只 修改 一 处 ,就 会 引起 不 一 致 。 为 此 ,在 说 明 
take 时 ,使 用 关键 字 inverse 说 明 在 Course 类 型 中 还 存在 一 个 taken-by 的 逆 遍 历 路 径 。 对 
于 taken-by 也 是 如 此 。 有 了 这 样 的 说 明之 后 ,无 论 是 从 任何 一 方 进行 修改 ,系统 都 可 以 自 
行 维护 数据 的 一 致 性 。Relationship 通过 导航 方式 实现 了 不 同类 型 对 象 之 间 的 相互 联系 ， 
完成 了 对 于 复杂 对 象 的 计算 ,是 避免 开销 很 大 的 连接 运算 从 而 提高 系统 效率 的 基本 技术 。 

2. 原子 对 象 与 构造 对 象 

对 象 作为 一 个 伞 形 概念 ,可 以 具有 属性 、 联 系 和 方法 3 个 组 成 部 分 (要 素 ) ,但 不 必 同 时 
具有 这 3 个 要 素 ,实际 上 ,只 需 具有 其 中 之 一 就 可 以 称 之 为 逻辑 意义 上 的 “对 象 ”。 但 从 技术 
处 理 角度 考虑 ,同时 具有 三 要 素 和 只 具有 三 要 素 之 一 或 之 二 的 对 象 却 具有 和 较 大 差异 ,为 描述 
和 处 理 这 种 差异 ,ODMG 标准 中 规定 ,如 果 一 个 对 象 同时 具有 “对 象 三 要 素 ” 则 将 其 定义 为 
原子 对 象 (结构 对 象 ) ,否则 就 定义 为 构造 对 象 ( 非 结构 对 象 ) 。 

Q@ 原子 对 象 : 完整 具有 “属性 “联系 "和 “操作 ”3 个 组 成 部 分 的 对 象 ,对 象 本 身 不 可 再 
做 进一步 分 解 。 

@ 构造 对 象 : 部 分 具有 “属性 “联系 ”和 “操作 ”3 个 组 成 部 分 的 对 象 , 对 象 内 部 还 可 以 
进一步 分 离 。 

明确 原子 对 象 和 构造 对 象 的 意义 在 于 分 别 建立 不 同 的 对 象 构造 器 函数 。 

1) 原子 对 象 

原子 对 象 (atom object) 也 称 为 “用 户 定义 对 象 ”, 是 具有 完整 “三 要 素 ” 的 对 象 。 具 体 而 
言 ,所 有 非 聚 集 对 象 , 以 及 由 用 户 定义 的 具有 属性 、 方 法 和 联系 的 对 象 都 是 原子 对 象 。 原 子 
对 象 实 际 上 就 是 具有 “整体 化 "结构 的 对 象 。 例 如 ,Faculty 对象 有 一 个 带 有 许多 属性 、 联 系 
及 操作 的 一 体 结构 ,3 个 部 分 的 任何 一 个 缺失 或 分 离 后 都 不 足以 确定 Faculty 的 完整 语义 ， 
因此 是 一 个 原子 对 象 。 用 户 定义 的 “同型 "原子 对 象 类 型 可 被 定义 为 一 个 类 ,以 统一 刻画 描 
述 类 中 原子 对 象 具 有 的 属性 ,联系 与 方法 ,如 用 户 可 以 为 Faculty 对 象 指定 一 个 类 。 

原子 对 象 及 其 相应 类 是 “纯正 ”的 逻辑 意义 下 的 OODB 数据 元 素 , 而 非 原子 对 象 及 其 相 
应 类 是 在 “统一 ”的 观念 下 “看 作 ? 或 “处 理 为 "OODB 意义 下 的 数据 元 素 。 需 要 注意 的 是 ， 
ODMG 中 不 存在 系统 预 置 的 原子 对 象 。 

2) 构造 对 象 

构造 对 象 (structured object) 是 指 对 象 三 要 素 有 所 缺失 的 对 象 ,在 实际 应 用 中 ,通常 是 
具有 属性 而 联系 或 方法 缺失 ,或 者 两 者 都 缺失 的 数据 对 象 。 这 里 与 C++ 情形 类 似 ,是 为 了 兼 
容 常规 意义 下 的 复杂 数据 类 型 ,如 “聚集 ”与 “结构 ”等 情形 。 

(1) 聚集 对 象 (collection object) 。 在 某 种 意义 上 可 看 作 C++ 中 数组 在 数据 库 框 架 下 的 
扩展 ,作为 一 个 带 有 参数 的 类 型 生成 器 ,聚集 对 象 中 所 有 组 成 元 素 的 类 型 可 以 记 为 T。 聚 集 
对 象 本 身 可 看 作 是 一 个 具有 某 些 附加 条 件 的 集合 .其 中 所 有 元 素 都 属于 同一 类 型 ,这些 类 型 
可 以 是 原子 对 象 . 其 他 聚集 对 象 和 文字 类 型 。 

ODMG 支持 以 下 5 种 聚集 对 象 类 型 (集合 体 ) 。 

@ 数组 (Array < 下 >): 元 素 按 一 定格 式 排列 ,可 以 重复 ,每 个 元 素 可 以 按照 其 附 有 的 
下 标 进行 访问 ,数组 容量 大 小 可 以 动态 变化 。 
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@ 列表 (List <T>): 元 素 有 序 但 元 素 取 值 没有 重复 。 在 列表 类 型 中 ,可 以 从 表 头 、 表 
尾 或 指定 位 置 读 取 、 替 换 、 插 入 和 删除 元 素 。 

@ 包 (Bag <T>): 包 中 元 素 不 排序 且 允 许 重复 ,也 称 为 多 集 (multiset) 。 

@ 集合 (Set < 工 >) : 元 素 不 排序 且 不 允许 元 素 重复 。 

@ 字典 (Dictiongary <T,S >): 设 T,S 是 任意 类 型 , 则 字典 类 型 Dictiongary <T,S > 
表示 TS 有 序 对 的 有 限 集合 ,其 中 ,T 称 为 键 类 型 ,S 称 为 值 域 类 型 ,由 此 可 知 字 典 类 型 
Dictiongary <T,S> 中 的 元 素 就 是 ( 键 , 值 ) 二 元 组 ,其 基本 要 求 是 各 个 二 元 组 不 能 完全 相 
同 。 字 典 类 型 允许 关联 查询 , 即 给 定 键 值 就 可 得 到 一 个 特定 关联 对 ,这 与 索引 类 似 。 下 面 是 
每 个 ( 键 , 值 ) 二 元 组 都 是 结构 Association 的 实例 。 

struct Rssociation{ 

Object key; 
Object value; 

}; 

ODMG 中 分 别 定义 了 数组 工厂 、 列 表 工 厂 、 包 工厂 和 集合 工厂 来 创建 聚集 对 象 ,它们 都 
是 对 象 工厂 的 子 类 型 。 这 些 聚 集 工厂 接口 的 定义 分 别 简写 为 : 





Interface RrrayFactory:ObjectFactory{ 


}; 
Interface ListFactory:ObjectFactory{ 


}; 
Interface BagFactory:ObjectFactory{ 


}; 
Interface SetFactory:ObjectFactory{ 


}; 


其 中 ,“…” 为 系统 内 置 内 容 ,详细 可 参考 有 关 资 料 。 

(2) 结构 对 象 (Structural Object)。 结 构 对 象 的 组 成 元 素 通 常 具有 不 同 的 数据 类 型 ,这 
不 同 于 聚集 对 象 的 情形 。 结 构 对 象 可 以 类 比 于 RDB 中 的 元 组 和 对 象 关系 数据 库 中 的 行 ( 结 
构 ) 类 型 。 

3. 文字 

对 象 需要 有 标识 。 创 建 和 管理 对 象 标识 是 一 项 较 大 的 系统 开销 。 对 象 标识 的 基本 作用 
在 于 区 分 对 象 ,但 在 实际 应 用 中 ,有 许多 对 象 特别 是 非 结构 对 象 并 不 需要 进行 特别 区 分 , 数 
据 本 身 的 字面 值 就 可 担当 其 标识 作用 .因此 可 “省 略 ” 对 象 标识 。 没 有 专门 对 象 标 识 的 对 象 
就 是 OODM 中 文字 。 

1) 文字 基本 性 质 

文字 (literal) 是 指 没 有 对 象 标识 的 一 个 对 象 实例 或 对 象 值 。 相 对 于 变量 ,文字 相当 于 
常量 。ODMG 中 的 文字 具有 如 下 特性 。 

(1) 文字 语义 。 文 字 语义 直接 由 表示 它 的 字符 确定 而 无 须 另 外 释义 , 即 * 见 其 面 而 知 其 
值 ”。 例 如 ,由 “1949-10-01? 就 直接 可 以 知道 其 语义 为 “中 华人 民 共 和 国 成 立 日 ”。 





(2) 文字 标识 。 文 字 自 身 的 值 就 是 其 标识 而 无 须 专门 创建 相关 OID, 但 可 为 文字 赋予 
名 称 。 

(3) 文字 修改 。 如 上 所 述 , 文 字 取 值 更 新 后 其 语义 特别 是 标识 都 会 相应 改变 ,从 对 象 角 
度 考虑 ,就 不 再 是 原先 文字 (对 象 ) ,这 相当 于 撤销 原先 文字 而 重新 设置 新 的 文字 ,从 这 个 意 
义 上 而 言 ,文字 具有 不 可 更 改 性 (immutable)。 

2) 原子 文字 

原子 文字 (atom literal) 是 指 预定 义 的 并 且 对 应 于 基本 数据 类 型 的 对 象 值 。 例 如 ,C++ 
中 整数 、 实 数 及 各 类 合法 字符 都 是 常用 的 原子 文字 。 

在 ODMG 标准 中 ,原子 文字 主要 有 long ,long long、 short、 unsigned long、 unsigned 
short float double、boolean \octet char string enum 13 种 。 

其 中 , 枚 举 类 型 (enum) 是 一 个 类 型 生成 器 ,定义 枚 举 类 型 时 需要 说 明 取 值 范围 。 例 如 ， 
当 属性 gender 被 定义 为 枚 举 类 型 时 , 取 值 范围 为 {male,female})。 


attribute enum gender{male, female}; 


3) 构造 文字 

构造 文字 (structured literal) 分 为 持久 聚集 (immutable collection) 文 字 和 持久 结构 
(immutable structure) 文字 两 种 子 类 型 情形 。 

对 象 和 文字 都 可 以 有 自身 的 构造 子 类 型 ,但 两 者 的 意义 有 所 不 同 。 

(1) 基于 对 象 构造 子 类 型 : 完整 意义 下 的 对 象 ,具有 对 象 的 各 种 功能 。 

(2) 基于 文字 构造 子 类 型 : 只 是 一 个 常量 ,没有 属性 、 联 系 和 操作 说 明 , 没 有 OID 也 不 
能 更 改 。 

由 此 可 知 ,构造 文字 实际 上 就 是 一 种 数据 常量 而 且 不 可 更 改 ,因此 ,本 体 上 就 具有 持久 
性 ,这 种 基于 聚集 和 结构 的 对 象形 式 通 常 也 称 为 “持久 聚集 "和 “持久 结构 ”。 

ODMG 支持 的 结构 文字 包括 Date( 日 期 类 型 ) Interval( 时 间 间 隔 类 型 )、Time( 时 间 类 
型 ) .Timestamp( 时 间 戳 类 型 )4 种 。 

ODMG 提供 上 述 类 型 的 类 型 生成 器 struct, 也 可 以 在 应 用 程序 中 自 定义 结构 文字 类 
型 ,如 下 面 的 Passport 就 是 应 用 程序 自 定义 的 结构 文字 。 


struct Passport { 
string passportNum; 
string nationality; 
date issueDate; 
date expiryDate; }; 


3.3.3 类 型 ,类 和 接口 


类 和 对 象 一 样 ,是 面向 对 象 思想 中 最 重要 的 元 语 , 需 要 结合 数据 库 技术 实现 的 指向 对 它 
们 进行 较为 精细 的 释义 。 

1. 类 型 和 类 

“类 型 "和 “类 ”是 ODMG 的 常用 语 。 在 面向 对 象 程序 设计 语言 当中 ,类 型 (type) 和 类 
(class) 常 常 通用 。 例 如 ,在 C++ 中 说 明 一 个 对 象 属于 某 个 类 和 该 对 象 属于 某 种 类 型 往往 具 
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有 相同 的 含义 。 但 ODMG 标准 对 * 类 型 ”和 * 类 ”进行 了 适当 区 分 。 

(1) 类 型 : 具有 所 涉及 方法 及 该 方法 的 所 有 实现 。 

(2) 类 : 具有 所 涉及 方法 及 该 方法 的 一 种 或 几 种 实现 。 

由 此 可 知 ,类 型 不 依赖 于 其 中 方法 的 具体 实现 , 即 对 于 方法 实现 透明 ; 类 依赖 于 其 中 方 
法 的 具体 实现 。 也 就 是 说 ,ODMG 中 “类 型 "抽象 层次 高 于 “类 ”, 类 型 可 以 概括 类 。 而 在 所 
涉及 方法 有 且 仅 有 一 种 实现 方式 时 ,“ 类 型 "和 “类 ” 才 在 逻辑 上 具有 相同 语义 。 当 然 在 实际 
应 用 中 ,方法 多 是 同 其 实现 整合 在 一 起 的 ,因此 ,如 同 在 程序 语言 中 那样 ,在 ODMG 表述 
中 ,“ 类 ”的 概念 一 般 更 为 常用 。 

正 是 由 于 类 型 具有 较 高 的 抽象 层次 ,因此 类 型 中 可 以 有 实例 也 可 以 不 定义 实例 。 作 为 
具有 相同 静态 和 动态 性 质 的 对 象 实例 的 集合 ,类 通常 是 不 能 没有 对 象 实例 的 。 由 此 可 知 ， 
“类 ”相当 于 RDB 中 的 满足 适当 条 件 的 同型 元 组 的 集合 ,此 时 ,这 种 “适当 条 件 ” 就 是 关系 表 
的 域 约束 (关系 外 延 )。 在 RDB 中 ,数据 对 象 的 域 约束 对 于 有 效 的 数据 查询 至 关 重 要 。 为 
此 ,通过 前 述 提 及 的 类 外 延 也 就 将 常规 数据 库 中 的 域 约束 概念 拓展 到 OODB 当中 。 

类 的 一 个 基本 情形 是 可 以 定义 相应 的 类 外 延 的 ,而 类 外 延 实际 上 就 是 将 类 中 对 象 作 用 
域 显 式 化 ,其 意义 在 于 进行 类 的 创建 时 ,能够 先行 确定 其 对 象 实例 的 范围 以 利于 数据 的 有 效 
查询 和 管理 。 

“类 外 延 " 在 ODMG 标准 中 也 简称 为 “外 延 ”(extent) , 即 类 的 所 有 持久 化 对 象 实例 全 体 
构成 其 外 延 ,并 将 其 看 作 是 类 的 一 个 组 成 部 分 。 每 个 类 的 外 延 由 系统 自动 创建 并 加 以 维护 。 
可 对 其 进行 命名 以 供用 户 访问 。 外 延 是 类 外 延 ( 持 久 化 对 象 集合 范围 ) 的 数据 库 释 义 , 其 意 
义 在 于 以 下 两 点 。 

(1) 通过 键 进行 对 象 语义 识别 。 由 于 外 延 是 语义 概念 ,因此 可 在 外 延 中 定义 * 键 ?以 方 
便 在 外 延 范围 内 对 实例 进行 唯一 的 语义 识别 。 

(2) 通过 键 建立 数据 索引 。 由 于 索引 建立 在 相关 语义 基础 之 上 ,具有 了 ” 键 ? 就 可 以 通 
过 键 值 建立 索引 以 提高 查询 效率 。 

2. 类 与 接口 

继承 和 多 态 是 面向 对 象 技术 中 最 具有 特色 的 重要 机 制 之 一 ,也 是 其 精华 所 在 。 从 继承 
机 制 实现 的 技术 角度 考虑 ,ODMG 标准 还 将 类 型 概念 进一步 细 化 ,引入 “类 ”和 “接口 ”两 个 
不 同 的 概念 。 

(1) 接口 (interface)。 类 型 中 只 含有 对 象 抽 象 行为 ( 即 操作 ) 的 称 为 接口 ,如 果 作 为 基 
类 ,其 派生 类 只 能 继承 所 具有 的 操作 。 

(2) 类 (class) 。 类 型 中 同时 含有 对 象 操作 与 抽象 状态 (属性 或 联系 ) 的 称 为 类 ,类 也 可 
称 为 对 象 类 型 ,如 果 作为 基 类 ,其 派生 类 可 以 继承 所 具有 的 操作 与 状态 。 

接口 和 类 的 关联 与 区 别 如 图 3-1 所 示 。 

接口 概念 引入 背景 : 当 涉 及 的 多 个 类 具有 相同 方法 但 具有 不 同 的 对 象 范围 (外 延 ) 时 ， 
可 将 其 共同 方法 集中 起 来 形成 一 个 新 的 类 型 并 看 作 接 口 ,然后 将 涉及 各 个 类 作为 其 子 类 型 
完成 接口 继承 。 作 为 一 种 特定 类 型 ,接口 具有 可 见 的 状态 和 方法 ,关键 点 在 于 其 方法 可 被 其 
他 接口 或 类 所 继承 ,但 其 状态 不 能 被 继承 下 去 。 接 口 状 态 ( 属 性 或 联系 ) 只 起 到 某 种 说 明 解 
释 的 作用 ,不 具有 作为 其 对 象 的 状态 变量 的 基本 功能 。 因 此 ,接口 不 可 实例 化 , 即 不 能 通过 
接口 直接 创建 实例 对 象 。 接 口 实际 上 相当 于 面向 对 象 方法 中 的 “抽象 类 ”。 








类 型 (type) 


接口 (interface) 类 (class) 








只 能 继承 方法 继承 方法 和 状态 








图 3-1 接口 与 类 


接口 外 部 说 明 是 对 象 的 抽象 行为 (方法 ) 的 详细 描述 , 它 指定 了 用 来 指定 操作 名 ,参数 类 
型 和 返回 值 的 操作 签名 。 
一 个 接口 声明 的 实例 为 : 


interface ObjectFactory{ 
Object new() 
}; 
说 明 : interface ObjectFactory 说 明 接 口 ObjectFactory 的 抽象 行为 ,其 中 包含 一 个 操 
作 new(), 它 返回 一 个 带 有 对 象 标识 OID 的 新 对 象 。 通 过 继承 该 接口 ,用 户 可 以 为 每 个 自 
定义 的 原子 对 象 类 型 创建 对 象 实例 。 
3. 类 的 声明 
类 声明 由 一 个 外 部 说 明 (specification) 和 一 个 或 多 个 实现 (implementation) 组 成 。 其 中 
外 部 说 明 主 要 定义 类 外 部 特征 ,包括 类 的 状态 .操作 和 异常 ,而 实现 主要 是 类 的 操作 及 其 他 
各 种 细节 的 实现 。 类 的 外 部 说 明 与 类 的 实现 无 关 。 
1) 类 外 延 和 键 
RDB 需要 将 关系 模式 和 关系 实例 区 分 开 来 ,OODB 也 需要 将 类 定义 和 该 类 对 象 集合 区 
分 开 来 。 前 述 的 类 外 延 就 是 一 个 类 所 有 持久 对 象 实例 的 特定 集合 ,如 同一 个 关系 模式 可 以 
具有 多 个 关系 实例 ,一 个 类 也 可 以 通过 类 外 延 创 建 不 同 的 对 象 实例 集合 。 也 就 是 说 , 当 命名 
了 一 个 外 延 ,就 相当 于 创建 了 一 个 对 象 实例 集合 。 类 外 延 创建 格式 为 : 


class 类 名 称 (extent 外 延 名 称 ) … 


在 RDB 中 ,系统 为 每 个 关系 模式 维护 一 个 或 多 个 关系 实例 即 关系 外 延 ; 在 OODB 中 ， 
模式 设计 者 可 以 选择 系统 是 否 需 要 为 每 个 定义 的 类 自动 维护 一 个 或 多 个 对 象 实例 集合 即 类 
外 延 。 维 护 外 延 包括 向 外 延 集合 中 插入 新 创建 的 对 象 实例 和 从 外 延 集合 中 移 走 已 经 删除 的 
对 象 实例 ,或 者 建立 并 管理 索引 ,提高 外 延 集合 中 实例 访问 效率 。 管 理 索 引 将 使 系统 开销 增 
大 ,设计 者 需要 单独 说 明 是 否 要 为 外 延 建立 索引 。 

如 前 所 述 ,由 于 接口 不 能 有 相关 对 象 实例 集合 ,因此 接口 可 以 看 作 是 没有 (不 能 ) 定 义 外 
延 的 (抽象 ) 类 。 实 际 上 ,接口 主要 应 用 于 若干 个 类 具有 相同 特性 而 具有 不 同 外 延 时 的 情形 ， 
在 某 种 意义 上 与 关系 模式 所 位 于 的 相当 层次 类 似 ,对 于 RDB 而 言 ,若干 个 不 同 的 关系 实例 
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可 以 具有 相同 的 关系 模式 ; 对 于 OODB 来 说 ,不 同 的 派生 类 可 以 从 接口 那里 继承 相同 的 
操作 。 

不 同 于 接口 ,类 定义 用 于 形成 用 户 所 需要 的 数据 库 模式 和 创建 实际 的 应 用 对 象 。 类 可 
以 实例 化 ,其 状态 和 方法 都 可 以 被 子 类 型 继承 。 因 此 ,需要 将 数据 库 中 已 有 的 类 定义 与 相应 
对 象 实例 集合 进行 区 别 , 这 就 和 关系 模式 与 关系 实例 间 关 系 相似 。 在 ODMG 中 ,这 种 区 别 
通过 赋予 类 及 其 外 延 (extent) 不 同名 称 实现 。 因 此 ,从 创建 类 的 语法 结构 上 来 看 ,类 的 名 称 
就 相当 于 类 的 设计 模式 ,而 类 的 外 延 就 相当 于 界定 该 类 当前 存在 的 持久 化 对 象 实例 集合 。 

在 创建 类 的 语法 形式 中 ,类 外 延 声明 方式 是 通过 小 括 弧 将 关键 词 extent 及 紧 跟 其 后 的 
范围 括 起 来 ,添加 在 类 名 称 之 后 。 通 常 将 类 名 称 声明 为 一 个 单数 名 词 ,而 将 相应 类 外 延 声明 
为 该 名 词 复数 形式 。 

在 某 些 情况 下 ,类 的 对 象 实例 可 以 通过 实例 本 身 的 取 值 进行 标识 ,这 种 可 以 标识 对 象 的 
“对 象 取 值 ?就 是 前 面 提 及 的 对 象 的 键 (key) ,这 样 就 可 在 类 外 延 中 定义 对 象 实例 的 键 ,用 于 
在 外 延 范围 内 唯一 识别 一 个 对 象 。 键 由 一 个 或 多 个 取 值 (属性 或 联系 ) 组 成 ,由 一 个 取 值 组 
成 的 键 称 为 简单 键 (simple key) ,由 多 个 取 值 组 成 的 键 称 为 复合 键 (compound key)。 一 个 
带 有 类 外 延 的 类 可 以 拥有 一 个 或 多 个 键 。 键 的 创建 格式 为 : 


class 类 名 称 (extent 外 延 名 称 , key( 取 值 1, 取 值 2, …, 取 值 n))… 
【 例 3-1】 具有 外 延 和 键 的 类 声明 如 下 。 


Class Person 

(extent persons key social - number) 
{attribute string social - number; 
attribute string name; 
attribute integer age; 
}; 

2) 类 声明 

类 声明 主要 由 属性 声明 、 联 系 声明 和 方法 声明 组 成 。 

(1) 属性 声明 。 属 性 (attributes) 通 过 将 固定 数据 类 型 的 值 与 一 个 对 象 实例 相关 联 , 从 
选 定 角度 描述 对 象 实例 的 性 质 。 需 要 注意 的 是 ,属性 值 只 能 是 文字 。 属 性 取 值 可 以 是 基本 
数据 类 型 ,也 可 以 复杂 数据 类 型 。 复 杂 数 据 类 型 主要 有 前 述 的 由 同类 数据 构成 的 聚集 类 型 
和 由 不 同类 数据 构成 的 结构 类 型 。 

(2) 联系 声明 。 联 系 (relationships) 是 指 不 同类 的 对 象 之 间 的 对 象 的 引用 或 对 象 聚集 
的 引用 。ODMG 通过 联系 描述 同类 型 或 不 同类 型 文字 、 对 象 之 间 的 关联 。 例 如 ,大 学 和 教 
师 都 可 看 作 两 个 不 同 的 类 ,那么 ,大 学 类 中 的 一 所 大 学 (对 象 ) 可 以 关联 教师 类 中 的 很 多 对 
象 一 -教师 ,而 教师 类 中 的 每 个 对 象 又 都 关联 大 学 类 中 的 一 个 对 象 (具体 的 大 学 )。 这 里 就 
存在 着 两 个 联系 : 大 学 类 到 教师 类 联系 Tl 和 教师 类 到 大 学 类 的 联系 T2, 而 Tl 和 了 T2 互 
道 , 即 Tl 和 T2 互 为 反 联 系 ,其 中 Tl 表达 了 大 学 与 教师 的 1 : 2 联系。 这 与 ER 模型 中 的 
二 元 联系 类 似 。 联 系 的 参与 者 是 对 象 ,联系 的 值 只 能 是 OID 或 其 集合 。 联 系 声明 就 是 要 描 
述 这 种 类 型 之 间 的 关联 

(3) 方法 声明 。 方 法 (methods) 声 明 与 C++ 中 函数 声明 相同 ,每 个 方法 属于 某 个 类 ,并 
且 由 该 类 的 对 象 进行 调用 ,因此 类 型 中 的 对 象 可 以 看 作 是 相应 方法 的 隐 含 参数 。 在 这 种 观 


点 之 下 ,调用 方法 的 对 象 决定 具体 调用 方法 ,从 而 可 以 使 不 同类 型 中 的 对 象 使 用 相同 的 方法 
名 ,从 而 也 就 自然 引入 了 重要 的 多 态 与 重 载 (overloaded) 机 制 。 

在 ODMG 中 ,方法 声明 包括 下 述 内 容 。 

(1) 方法 参数 : 可 以 分 为 输入 、 输 出 和 输入 输出 3 种 类 型 ,分 别 由 in、out 和 inout 表示 。 
在 实际 应 用 中 ,in 参数 通过 “ 值 ”进行 传递 ,而 out 和 inout 通过 “引用 ”进行 传递 ,因此 ,在 方 
法 中 可 以 改变 out 和 inout 参数 ,但 不 能 改变 in 参数 。 另 外 ,方法 还 可 以 返回 * 值 。 

(2) 异常 处 理 : 方法 可 能 会 引发 异常 (exception) ,异常 表示 一 种 不 正常 或 未 曾 预料 到 
的 情形 ,而 异常 由 方法 中 的 某 个 特定 的 方法 进行 处 理 ,这 种 处 理 也 可 以 是 通过 一 系列 的 间接 
调用 实现 的 。 在 ODMG 中 ,可 以 在 方法 声明 之 后 添加 条 件 关键 字 raise, 再 在 其 后 添加 由 括 
号 括 起 来 一 个 或 多 个 由 该 方法 引起 的 异常 描述 。 例 如 ,假设 一 个 方法 表示 两 个 实数 相 除 , 如 
果 除 数 为 零 , 则 会 引发 “除数 不 能 为 零 ”" 异 常 报 出 。 


3.3.4 接口 继承 与 类 继承 


如 前 所 述 ,由 于 数据 库 中 的 类 能 够 通过 语言 联 编 映射 为 编程 语言 中 的 相应 类 ,因此 可 以 
直接 实例 化 ; 而 接口 不 能 直接 实例 化 ,因此 ,在 ODMG 中 ,“ 超 类 型 一 一 子 类 型 "继承 就 需 从 
技术 层面 上 区 分 “接口 "继承 (ISA 关系 ) 和 “类 继承 ”(EXTENDS 关系 ) 两 种 情形 。 

在 ODMG 标准 中 ,ISA 关系 用 于 说 明 类 型 之 间 的 行为 继承 ,而 EXTENDS 关系 用 于 说 
明 类 型 之 间 的 状态 和 行为 继承 。 

1. 接口 继承 

接口 主要 用 于 声明 可 以 被 类 或 其 他 接口 继承 的 抽象 行为 (操作 ) ,因此 ,接口 继承 可 以 看 
作 是 “行为 (操作 ) 继 承 ”, 其 创建 格式 为 : 

class 子 类 型 (接口 或 类 ) 名 称 : 超 类 型 (接口 ) 名 称 {…} 

其 中 ,{…} 表 示 相 应 子 类 型 特有 的 类 型 声明 (下 同 ) 。 需 要 注意 的 是 ,行为 继承 要 求 超 类 
型 必须 是 一 个 接口 ,而 子 类 型 可 以 是 接口 也 可 以 是 类 。 行 为 继承 允许 多 重 继承 , 即 子 类 型 可 
以 从 多 个 不 同 接口 中 继承 行为 。 

2. 类 继承 

由 于 类 概念 中 基本 要 素 是 状态 和 行为 ,对 于 状态 和 行为 的 继承 就 称 为 类 继承 。 类 继承 
的 创建 格式 为 : 


class 子 类 型 (类 ) 名 称 extends 超 类 型 (类 ) 名 称 { … } 


需要 注意 的 是 ,在 扩展 继承 中 , 超 类 型 和 子 类 型 都 
必须 是 类 ,并 且 不 允许 进行 多 重 继承 。 Cu » 人 sm 


图 3-2 所 示 为 接口 继承 和 扩展 继承 的 直观 描述 。 
下 面 的 例 3-2 主要 说 明了 接口 继承 与 扩展 继承 的 接口 继承 
” CD 
【 例 3-2】 接口 继承 与 扩展 继承 实例 。 
Interface Employee{...}; 图 3-2 接口 继承 和 扩展 继承 


Interface Professor:Employee{...}; 
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Interface Associate_Professor:Professor {...}; 


Class Salaried Employee:Employee{...}; 
Class Hourly Employee:Employee{ ...}; 


Class Person{ 
attribute string name; 
attribute date birthday; 
}; 


class Employeeperson extends Person:Employee{ 

attribute Date hireDate; 

attribute Currency payRate; 

relationship Manager boss inverse Manager: :subordinates; 
}; 


class ManagerPerson extends EmployeePerson:Manager{ 
relationship set < Employee > subordinates inverse Employee: :boss; 

} 

说 明 : 假设 在 接口 Employee 中 定义 了 操作 calculate-paycheck。 上 述 接 口 Professor 是 
对 接口 Employee 的 接口 继承 ,而 接口 Associate_Professor 又 是 对 接口 Professor 的 接口 继 
承 ; 类 Salaried_Employee 和 Hourly_Employee 也 是 对 接口 Employee 的 接口 继承 。 类 
EmployeePerson 是 对 类 Person 的 扩展 继承 ,类 ManagerPerson 又 是 对 类 Employeeperson 
的 类 继承 。 在 接口 继承 中 ,还 可 以 根据 子 类 型 的 具体 情况 对 接口 Employee 中 操作 
calculate-paycheck 进行 修改 。 另 外 ,也 允许 对 行为 进行 多 重 继承 , 即 一 个 子 类 型 可 以 从 不 
同 的 超 类 中 继承 多 个 具有 相同 名 称 、 不 同 参数 的 操作 。 


3.4 ODMG 数据 操作 


在 ODMG 3.0 标准 中 ,基于 数据 库 技术 框架 的 数据 定义 语言 和 数据 查询 语言 分 别称 为 
对 象 定义 语言 (Object Definiton Language, ODL) 和 对 象 查 询 语言 (Object Query 
Language,OQL)。ODL 类 似 于 SQL 中 的 DDL. 但 具体 写法 有 所 不 同 ,OQL 则 具有 一 定 的 
SQL 风格 。 作 为 面向 对 象 数 据 定义 语言 ,ODL 主要 用 途 在 于 创建 对 象 类 型 , 即 类 和 接口 声 
明 。ODL 不 是 一 种 完全 的 编程 语言 ,用 户 也 可 独立 于 任何 编程 语言 而 在 ODL 中 制定 一 种 
数据 库 模 式 ,然后 使 用 特定 的 语言 绑 定 来 指明 如 何 将 ODL 结构 映射 到 特定 编程 语言 中 的 
结构 ,如 Smalltalk .C++ 和 Java 等 。 


3.4.1 对 象 定义 语言 
如 同 C++ 中 情形 ,OODB 中 数据 元 素 的 创建 包括 类 型 创建 和 对 象 创建 。 


1. 类 的 创建 
OODB 中 的 数据 模式 被 定义 为 一 系列 接口 和 类 (class) 的 集合 。 
1) 接口 声明 


ODL 中 接口 声明 (创建 ) 包 括 下 述 内 容 。 


(1) 关键 字 interface 和 接口 名 称 。 

(2) 用 “: "表示 接口 继承 。 

(3) 用 大 括号 “{}” 包 含 的 可 以 按照 任意 顺序 出 现 的 类 型 状态 和 方法 列表 。 

2) 类 声明 

ODL 中 类 声明 (创建) 包括 下 述 内 容 。 

(1) 关键 字 class 和 类 名 称 。 

(2) 用 关键 词 extends 表示 类 继承 。 

(3) 类 外 延 extent 和 外 延 名 称 。 

(4) 用 大 括号 “{}” 包 含 的 可 以 按照 任意 顺序 出 现 的 类 型 状态 和 方法 列表 。 

【 例 3-3】 创建 一 个 广东 省 内 大 学 的 面向 对 象 数 据 库 模 式 , 该 模式 包含 有 类 “Course” 
“Person”Student” 和 “Department” 等 ,其 中 假设 已 经 存在 对 象 工厂 ObjectFactory。 

@ 类 Course 声明 。 

class Course: Object(extent courses, key course_number){ 

/* Object 是 Course 的 超 类 型 ,以 下 为 类 的 公共 性 质 ,其 取 值 不 以 实例 而 异 。 


外 延 名 称 为 courses，course - number 是 键 ,以 下 为 类 的 性 质 ,其 值 以 实例 而 异 ,是 类 
型 的 非 公共 性 质 。* / 


attribute String course_number; /* 课程 号 ,字符 串 型 * / 
attribute String name; /* 课程 名 称 ,字符 串 型 * / 
attribute Integer credit; /* 学 分 数 ,整数 型 * / 


attribute Enum{ spring, fall} time_offered; ”/* 开课 时 间 , 枚 举 型 ,春季 或 秋季 * / 
relationship Set < Course> has_prerequisites inverse Course: :is_prerequisite_ for; 

/* has_prerequisites 表示 本 例 有 哪些 先 修 课 程 , is_prerequisite_for 表示 本 例 是 哪些 
先 修 课程 ,这 是 Course 中 两 个 互 逆 遍 历 路 径 。* / 

relationship Set < Student > taken_by inverse Student: :take; 

/* taken_by 是 个 遍历 路 径 , 通过 它 可 以 查询 本 门 课程 的 学 生 。 在 Student 有 遍历 路 径 

take。 以 下 是 例 的 操作 * / 
offer(in Enum{ spring, fall })raises <already offered>; 

/* 将 本 例 中 time_offered 属性 为 输入 参数 in 所 指定 的 学 期 , Enun{ spring, fall} 为 输入 
参数 的 类 型 。 如 果 已 经 规定 了 开课 时 间 , 则 此 操作 是 重复 设置 ,会 引起 "already_ 
offered" 异 常情 况 */ 

drop( )raises(not_offered); 

/* 清除 本 例 中 time_offered 属性 ,表示 暂时 不 开 此 课 。 若 已 不 开 此 课程 , 则 没有 必要 执 

行 此 操作 ,否则 会 引起 "not_offered" 异 常情 况 */ 
}; 


@ 类 Person 声明 。 


class Person: Object{ 

attribute String name; 

attribute String birthday; 

attribute String sex; 

age(in Person, birthday); /* 以 Person、birthday 为 输入 参数 ,计算 当前 年 龄 * / 
}; 


@ 类 Student 声明 。 


class Student extends Person(extent students key student number){ 
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/* 其 他 属性 从 超 类 型 Person 继承 * / 
attribute String student number; 
relationship Department departmentinverse Department: : student; 
/* department 是 遍历 路 径 ,表示 学 生 所 在 的 系 ,在 Department 类 型 中 ,有 遍历 路 径 student, 
表示 有 哪些 学 生 * / 
relationship Set < Course> take inverse Course: :taken_by; 
/* 通过 take 遍 历 路 径 , 可 以 查询 本 实例 所 选课 程 ,Course 中 的 taken_by 是 其 逆 遍 历 路 径 * / 
Transfer department (in Department) raises(department full); 
/* 本 例 转 系 ,in 是 输入 参数 ,表示 要 转 信 的 系 .如 果 该 系 学 生 已 经 满员 , 则 引起 "department_ 
ful1" 异 常情 况 * / 
}; 


@ 类 Department 声明 。 


class Department :Object(extent department key department_number){ 
attribute String department_name; /* 系 名 称 , 字 符 串 型 , 键 * / 
attribute integer number_of faculty;/* 教师 人 数 ,整数 型 * / 
relationship Set(Student) student inverse Student: :Department; 
add_a_student(in Student) ; /* 增加 一 个 学 生 ,in 为 输入 参数 ,表示 新 增 的 学 生 * / 
drop_a_student (in Student); /* 取消 一 个 学 生 , in 为 输入 参数 ,表示 去 掉 的 学 生 * / 
县 
说 明 : 类 的 状态 (静态 特性 ) 包 括 属性 和 联系 ,通过 “属性 ”可 描述 类 的 基本 数据 信息 ,但 
在 许多 情况 下 ,类 的 主要 关联 信息 可 以 通过 该 类 对 象 与 其 他 相同 或 不 同类 中 对 象 之 间 的 “ 联 
系 ” 表 现 出 来 。 此 时 ,类 之 间 对 象 的 双向 联系 是 OODB 中 类 定义 的 一 个 显著 特色 。 
上 述 @ 在 类 Course 和 类 Student 之 间 定 义 联系 为 : 


relationship Set < Student > taken_by inverse Student: :take; 


这 里 ,relationship 是 关键 字 ,taken_by 是 联系 名 ,Set < Student > 是 相 联系 的 类 Student 
中 的 对 象 集合 。 事 实 上 ,如 果 将 taken_by 看 作 一 个 属性 ,其 属性 值 就 是 Set < Student >, 即 
Course 中 每 一 个 对 象 都 和 类 Student 中 一 组 对 象 相连 接 。 

另外 ,类 Student 中 的 每 一 个 对 象 也 会 和 类 Course 中 的 一 组 对 象 联系 ,其 联系 名 称 为 
take。 这 样 类 Course 和 类 Student 中 对 象 就 存在 着 一 种 “ 互 逆 ”联系 。 联 系 语句 短语 
“inverse Student: : take” 就 表明 这 种 “ 互 逆 ”语义 , 即 类 Student 中 联系 take 是 类 Course 中 
联系 taken_by 的 “ 北 联 系 ”。 由 于 联系 take 在 另 一 个 类 Student 中 定义 ,因此 联系 名 称 就 加 
上 了 该 类 名 称 Student 和 符号 : : ,这 是 由 于 通常 引用 定义 在 其 他 类 中 某 些 事物 (如 特征 和 类 
姓名 等 ) 时 通常 都 适用 的 符号 : : 。 

这 样 ,上 述 整 个 联系 语句 语义 表明 ,类 Course 中 每 个 对 象 (course) 都 联系 类 Student 中 
一 组 对 象 (student) ,而 且 这 组 student 中 的 每 一 个 也 都 通过 类 Stutent 中 联系 take 与 类 
Course 中 一 组 对 象 (course) 联 系 。 

上 述 联 系 是 建立 在 不 同类 Course 和 Student 之 间 。 而 “@” 中 还 将 类 Course 在 逻辑 上 
看 作 两 个 “不 同 ” 的 类 建立 了 下 述 联系 语句 , 即 在 “同一 类 ”Course 中 建立 联系 ,这 相当 于 
RDB 中 的 关系 自 连接 。 


"relationship Set < Course> has_prerequisites inverse Course::is_ prerequisite for; 
relationship Set < Course> is_prerequisite for inverse Course: :has_prerequisites;" 


其 具体 语义 可 以 仿 前 述 予 以 解释 。 

由 上 述 可 知 , 对 两 个 类 Cl 和 C2 中 联系 名 称 分 别 为 Tl 和 T2 而 言 , 相 应 联系 语句 格式 
可 以 表示 为 : 

在 类 Cl 中 

relationship Set< C2 > T1 inverse C2::T2; 

在 类 C2 中 : 

relationship Set <C1 > T2 inverse C1::T1; 

如 果 Cl 二 C2==C, 则 相应 语句 还 可 以 省 略 逆 联系 中 的 类 C 而 简写 为 : 


relationship Set <C> T1 inverse T2; 
relationship Set <C> T2 inverse T1; 


对 于 @ .@ 田中 的 联系 语句 也 可 做 相同 的 语义 解释 。 

2. 对 象 创建 

如 前 所 述 ,OODB 中 的 对 象 分 为 原子 对 象 和 非 原 子 对 象 两 种 情形 ,而 非 原子 对 象 在 应 
用 中 多 表现 为 聚集 对 象 。 

原子 对 象 是 具有 完整 “对 象 三 要 素 ” 的 用 户 自 定义 对 象 ,可 以 呈现 出 各 种 不 同 的 复杂 人 情 
形 ,需要 用 户 通过 接口 或 类 定义 等 完成 创建 过 程 。 

聚集 对 象 相对 比较 整齐 ,根据 ODMG 标准 ,通常 是 使 用 为 不 同 聚集 对 象 定义 的 一 种 特 
殊 接 口 一 一 对 象 工厂 接口 中 定义 的 构造 器 函数 来 创建 聚集 对 象 。 

【 例 3-4】 如 前 所 述 , 下 述 语句 定义 了 ODMG 标准 中 一 个 对 象 工厂 接口 。 





Interface ObjectFactory{ 
Object new() 
} 


通过 该 工厂 对 象 接口 ,可 为 用 户 创建 聚集 对 象 为 : 


interface DateFactory:ObjectFactory{ 
exception InvalidDate{ }; 


Date calendar - datel( in unsigned short year, 
In unsigned short month, 

In unsigned short day) 

raises(InvalidDate); 


Date current(); 

}; 

说 明 : 上 述 工厂 接口 ObjectFactory 只 有 一 个 操作 new(), 它 返回 一 个 带 有 对 象 标识 
OID 的 新 对 象 。 新 创建 的 DateFactory 接口 继承 该 接口 生成 函数 new(), 就 可 为 每 个 用 户 
定义 的 原子 对 象 创建 它们 自己 的 工厂 接口 ,并 且 可 以 针对 每 种 新 对 象 实现 不 同 的 new() 操 
作 。 例 如 ,给 定 一 个 DateFactory 接口 , 它 还 可 以 有 其 他 一 些 操作 ,如 calendar-date 用 来 创 
建 一 个 新 的 日 期 ,current 用 来 创建 一 个 值 为 当前 日 期 的 对 象 。 
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3.4.2 数据 查询 语言 


作为 支持 ODMG 对 象 类 型 查询 语言 ,OQL 具有 下 述 基 本 特征 。 

(1) 结合 编程 语言 设计 。OQL 基本 思路 是 与 面向 对 象 程序 语言 密切 配合 共同 使 用 ， 
OQL 和 一 个 ODMG 绑 定 的 编程 语言 (如 C++ 、Java 等 ) 整 合 ,这 样 ,嵌入 某 种 编程 语言 的 一 
个 OQL 查询 就 可 返回 与 相应 语言 类 型 系统 匹配 的 对 象 。 

(2) 具有 SQL 风格 。OQL 查询 语法 与 关系 型 SQL 语法 相 类 似 ,采用 SQL 风格 ,同时 
增加 了 有 关 ODMG 的 基本 概念 特征 ,如 对 象 标识 ,复杂 对 象 操作 ,继承 多 态 和 联系 等 。 但 
OQL 与 SQL 只 是 风格 相似 ,本 质 上 并 不 兼容 。 由 于 上 述 特征 “(1)”,OQL 可 单独 使 用 ,也 
可 和 骨 入 到 相应 面向 对 象 程序 设计 语言 当中 。 

(3) 行为 包含 数据 更 新 。OQL 不 提供 显 式 数据 库 中 数据 的 更 新 操作 ,如 插入、 删除 和 
修改 等 ,这 主要 是 基于 封装 和 安全 性 的 考量 ,这 些 常 规 数 据 操作 主要 由 类 定义 中 的 相应 方法 
实现 ,也 就 是 说 ,ODMG 模式 中 数据 操作 是 通过 类 型 行为 定义 中 面向 对 象 编程 语言 编写 相 
应 代码 实现 ,而 不 是 由 系统 统一 提供 。 

1. 基本 查询 语句 

对 象 查询 语言 OQL 是 以 面向 对 象 模型 为 基础 的 类 SQL 查询 语言 ,允许 使 用 具有 传统 
SQL 风格 的 SELCET 语句 完成 书写 表达 。 在 collection 和 structure 中 ,如 果 数 据 是 由 类 型 
组 成 的 , 则 用 “< >” 表 示 ,如 果 是 由 文字 组 成 的 , 则 用 “O 〇 ”表示 。 

通常 ,OQL 中 一 个 SELECT 语句 包含 下 述 基 本 内 容 。 

(1) SELECT 子 句 : 关键 字 SELECT 十 表达 式 列 表 。 

(2) FROM 子 句 : 关键 字 FROM 十 一 个 或 多 个 变量 声明 。 

通常 变量 声明 格式 为 : 值 为 聚集 的 表达 式 十 AS( 可 选 ) 十 变量 名 称 。 

需 注意 的 是 ,SELECT 语句 本 身 就 是 一 个 聚集 值 表 达 式 ,FROM 子 句 中 可 再 嵌入 
SECLECT 语句 。 

(3) WHERE 子 句 : 关键 字 WHERE 十 布尔 表达 式 。 

如 同 传统 SQL ,布尔 表达 式 只 能 使 用 常量 或 在 FROM 子 句 中 定义 的 变量 。 表 达 式 中 
的 不 等 号 用 < > 表示 ,各 种 比较 操作 符 和 逻辑 运算 符 都 与 传统 SQL 相同 。 

【 例 3-5】 在 例 3-3 数据 库 中 ,用 OQL 的 SELECT 语句 完成 如 下 查询 。 

查询 大 学 中 授课 门 数 超过 两 门 的 教师 ,并 要 求 显示 学 校 名 称 和 教师 姓名 ,显示 时 属性 的 
别名 分 别 为 university_uname 和 faculty_name。 

SELECT university name:F. works_for.uname, faculty. name:F. name 


FROM facultiesF 
WHERE F. num teach()>2; 


【 例 3-6】 查询 广州 地 区 大 学 教师 开设 课程 名 。 


SELECT DISTINCT C. cname 
FROM universities U,U. staff FE,E.teach C 
WHERE U. city = 'guangzhou'; 


说 明 : 关键 字 DISTINCT 消除 结果 中 重复 部 分 ,查询 结果 为 集合 < set >, 如 果 包含 有 重 
复数 据 则 为 包 <bag>。 
【 例 3-7】 上 述 查询 也 可 以 用 子 查询 表示 ,但 查询 出 现在 FROM 中 。 
SELECT DISTINCT C. cname 
FROM (SELECT * 
FROM universities U 
WHERE U. city = 'guangzhou')D1, 
(SELECT 了 
FROM D1. staff F)D2, 
D2. teach C; 


说 明 : 本 例 语句 实际 上 没有 上 一 个 查询 语句 简洁 ,但 说 明 OQL 中 可 建立 起 新 的 查询 形 
式 。 这 里 FROM 子 句 具有 3 个 庶 套 循环 。 在 第 一 个 循环 中 ,变量 Dl 覆盖 了 广州 地 区 所 有 
大 学 ,这 是 FROM 子 句 中 的 第 一 个 查询 的 结果 。 对 于 识 套 在 第 一 个 循环 外 的 第 二 个 循环 ， 
变量 D2 覆盖 了 大 学 D1 的 所 有 教师 。 对 于 第 三 个 循环 ,变量 C 履 盖 了 该 教师 的 所 有 任课 ， 
而 此 语句 不 需要 WHERE 子 句 。 

【 例 3-8〗 上 例 中 也 可 用 在 WHERE 子 句 中 骨 有 子 查询 的 形式 。 


SELECT DISTINCT C. cname 
FROM coursetexts C 
WHERE C. teacher IN 
(SELECT * 
FROM faculties 了 
WHERE F. works_for IN 
(SELECT U 
FROM universities U 
WHERE U. city = 'guangzhou')); 


【 例 3-9】 查询 中 山大 学 教师 ,要 求 按 年 龄 降序 排列 , 若 年 龄 相同 按 工 资 降序 排列 。 


SELECT * 

FROM universities U,U. staff F 

WHERE U. uname = 'San Yet Sen university' 
ORDER BY F. age DESC,F. salary DESC; 


说 明 : 通常 SELECT 语句 中 查询 结果 为 集合 (set) 或 包 (bag) ,但 加 上 ORDER BY 后 ， 
输出 结构 就 为 列表 (list) 。 在 集合 或 包 中 ,可 不 考虑 输出 行 的 顺序 ,但 在 列表 中 ,需要 考虑 相 
应 的 行 序 。 

【 例 3-10】 以 下 查询 返回 为 列表 而 不 是 集合 或 包 。 

(SELECT F. fno, F. name 


FROM faulties 了 
ORDER BY F. age DESC)[0:4]; 


说 明 : 表达 式 [0: 4] 表 示 抽 取 年 龄 最 大 的 5 名 教师 ,这 相当 于 RDB 中 的 TOP 子 查 询 。 
【 例 3-11】 查询 广州 地 区 各 大 学 中 教师 开课 的 课程 名 称 ,要 求 显示 校 名 、 教 师 名 和 课 
程 名 。 
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SELECT Struct(U. uname, set(F. uname, set(C. cname) ) ) 

FROM universities U,U. staff F,F.teachC 

WHERE U. city = 'guangzhou'; 

说 明 : SELECT 子 句 中 表达 式 可 以 是 简单 变量 ,也 可 以 是 任何 表达 式 , 包 括 类 型 构造 符 
构成 的 表达 式 。 本 查询 就 用 了 struct 类 型 构造 符合 set 类 型 构造 符 。SELECT 中 的 struct 
是 一 种 显 式 定义 结构 类 型 的 方式 ,在 实际 使 用 中 可 以 省 略 。 

2. 查询 表达 式 

如 前 所 述 ,OQL 还 可 以 使 用 表达 式 来 完成 查询 ,查询 结果 就 是 表达 式 的 取 值 。 同 时 , 表 
达 式 还 可 以 用 来 构成 其 他 OQL 语句 。 表 达 式 可 以 是 变量 文字、 命名 对 象 和 查询 语句 ,以 
及 它们 通过 聚集 (平均 、 计 数 、 求 和 , 求 最 小 值 和 最 大 值 及 分 组 ) 、 人 逻辑 等 运算 (使 用 含有 全 称 
量词 FOR、ALL 和 存在 量词 EXISTS 表达 式 ) 和 集合 运算 (并 集运 算 ,交集 运算 和 差 集运 
算 ) 得 到 的 复合 运算 表达 式 。 

1) 聚集 表达 式 

与 SQL 相同 ,OQL 也 有 5 种 聚集 操作 : AVG、COUNT、SUM、MIN 和 MAX。 但 在 
SQL 中 ,聚集 运算 只 作用 在 关系 表 的 指定 列 , 而 在 OQL 中 可 作用 于 所 有 含有 适当 类 型 的 集 
合 上 。 其 中 ,COUNT 可 用 在 任意 聚集 类 型 ,SUM 和 AVG 可 用 在 基本 类 型 ( 整 型 等 ) 的 聚 
集 ,MAX 和 MIN 可 用 在 任何 可 比较 类 型 ( 整 型 和 字符 型 ) 的 聚集 上 。 

【 例 3-12】 在 例 3-3 数据 库 中 ,查询 每 个 年 龄 段 教师 平均 授课 门 数 。 

SELECT F. age 

avgNum: AVG( SELECT P. F. num_teach() FROM partition P) 

FROM faculties F 

GROUP BY F. age 

说 明 : 对 教师 按 年 龄 段 分 组 ,每 一 个 分 组 用 关键 字 Partition 表示 ,这 样 在 SELECT 子 
句 ,就 可 以 对 每 一 个 分 组 操作 了 。 此 处 统计 教师 授课 门 数 利用 了 函数 num-teach。 

【 例 3-13】 查询 以 40 岁 为 界 的 两 个 年 龄 段 的 教师 平均 授课 门 数 。 

SELECT low, high 

avgNum: AVG( 
SELECT P. F. nunm — teach() 
FROM partition P 

me 

GROUP BY low:F.age< 40, high:F.age > = 40; 

说 明 : 本 查询 中 ,分 组 子 句 只 产生 两 个 分 组 , 称 为 low 分 组 (age 二 40) 和 high 分 组 (age 之 
40) ,faculties 中 教师 根据 年 龄 值 放 在 两 个 分 组 中 。 在 SELECT 子 句 中 ,low 和 high 是 两 个 
布尔 变量 ,在 输出 的 每 个 元 组 中 ,只 有 一 个 是 true 值 。 这 个 查询 只 输出 两 个 元 组 ,其 中 一 个 
元 组 的 low 值 是 true,avgNum 值 是 小 于 40 岁 教 师 的 平均 授课 门 数 ; 另 一 个 元 组 的 high 值 
是 true,avgNum 值 是 大 于 或 等 于 40 岁 教 师 的 平均 授课 门 数 。 

【 例 3-14】 查询 至 少 有 一 位 教师 年 龄 超过 70 的 大 学 编号 、 校 名 和 教师 人 数 。 


SELECT U. uno,U. uname, U. num — staff() 
FROM universities U 


GROUP BY U. uno,U. uname 
HAVING MAX( 
SELECT F.age 
FROM patition P,P. staff F 
)>70; 

说 明 ; 上 述 查 询 根据 大 学 分 组 ,在 HAVING 子 句 中 ,挑选 至 少 一 位 教师 年 龄 超过 70 岁 
( 即 教师 中 最 大 年 龄 超过 70 岁 ) 的 那些 组 ,然后 再 求 每 组 中 有 多 少 名 教师 。 

2) 量词 表达 式 

量词 表达 式 用 于 检测 一 个 集合 所 有 成 员 或 至 少 存在 一 个 成 员 是 否 满足 给 定 条 件 。 

Q@ 所 有 成 员 满足 给 定 条 件 检测 。OQL 通过 表达 式 FOR ALL x IN S: C(x) 方 式 使 用 
任意 量词 。 该 表达 式 用 于 检测 集合 S 所 有 成 员 x 是否 满足 条 件 C(x)。 如 果 满 足 , 其 结果 就 
是 true, 和 否则 就 是 false。 

@ 存在 成 员 满 足 给 定 条 件 的 检测 。OQL 通过 表达 式 EXISTS x IN S: CCx) 方 式 使 用 
存在 量词 。 该 表达 式 表示 如 果 S 中 至 少 有 一 个 成 员 x 满足 C(x) ,结果 就 为 true, 和 否则 就 为 
false。 

【 例 3-15】 在 例 3-3 中 ,查询 存在 60 岁 以 上 教师 的 大 学 名 称 。 

SELECT DISTINCT U. uname 

FROM universities U 


WHERE EXISTS F IN U. staff:F.age>= 60; 
/x* 了 是 元 组 变量 ,谓词 C(x) 为 F.age>= 60*/ 


【 例 3-16】 查询 教师 年 龄 全 在 50 岁 以 下 的 大 学 名 称 。 


SELECT DISTINCT U. uname 
FROM universities U 
WHERE FOR ALL F IN U. staff:F.age < 50; 


3) 集合 运算 表达 式 
【 例 3-17】 在 例 3-3 中 ,查询 教师 人 数 不 超 过 1000 人 ,但 工资 低 于 1500 元 的 人 数 超过 
500 人 的 那些 大 学 的 编号 和 校 名 ,INTERSECT 集合 运算 符 表示 交集 。 


(SELECT U. uno, U. uname 
FROM universities U 
GROUP BY U. uno, U. uname 
HAVING U. num_staff()<1000) 
INTERSECT 
(SELECT U. uno, U. uname 
FROM uneiveisities U,U. staff F 
WHERE F. salary < 1500 
GROUP BY U. uno, U. uname 
HAVING U. uno_staff( )> 500); 


4) 路 径 表达 式 

路 径 表达 式 是 OQL 表达 式 的 关键 部 分 ,其 作用 可 使 给 定 查 询 深入 到 复杂 属性 (联系 ) 
和 作用 于 对 象 之 上 的 方法 ,同时 也 可 简化 查询 表示 。 类 似 于 C++ 中 的 情形 ,OQL 通常 使 用 
点 符号 “. ”访问 对 象 或 结构 的 相关 成 分 。 设 O 表示 类 C 中 某 个 对 象 ,P 表示 类 C 中 某 个 要 
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素 ( 属 性 、 联 系 或 方法 ),O.P 表 示 了 作用 于 O 上 的 结果 , 则 

(1) 如 果 P 表示 一 个 属性 , 则 O.P 表示 对 象 O 在 P 上 属性 取 值 。 

(2) 如 果 p 表示 一 个 联系 , 则 O.P 表示 通过 P 引用 与 对 象 O 相 联系 的 对 象 集合 。 

(3) 如 果 P 表示 一 个 方法 , 则 O.P 表示 方法 P 作用 于 对 象 O 的 结果 。 

在 例 3-3 中 , 设 student 是 类 Student 中 的 对 象 实例 , 则 有 Student. age 表示 对 象 
Student 在 属性 age 上 取 值 , 即 对 象 Student 的 年 龄 ; Student. take 表示 对 象 Student 通过 
联系 take 与 类 Course 中 相关 联 的 一 组 对 象 。 

3. 宿主 语言 变量 赋值 

嵌入 式 SQL 需要 在 元 组 分 量 和 宿主 语言 变量 之 间 传 递 数 据 ,在 OQL 中 ,可 将 查询 表 
达 式 结果 自然 地 赋值 给 任何 适当 类 型 的 宿主 语言 变量 。 

【 例 3-18】 查询 年 龄 大 于 60 岁 教师 。 

SELECT * 

FROM faculties F 

WHERE F. age > 60; 

说 明 : 查询 结果 是 年 龄 大 于 60 岁 的 教工 集合 ,其 数据 类 型 是 set (faculty)。 如 果 
oldfaculties 是 同类 型 的 宿主 语言 变量 , 则 可 使 用 经 过 OQL 扩充 的 C++ 写成 如 下 形式 。 

oldfaculties = SELECT * 

FROM facultiesF 
WHERE F. age > 60; 
此 时 ,oldfaculties 的 值 就 是 这 些 faculties 对 象 的 集合 。 

4. 聚集 中 提取 元 素 

SELECT 诸 句 查询 结果 通常 都 是 聚集 (集合 、 包 或 列表 ) ,实际 应 用 可 能 需要 从 中 提取 
某 个 或 某 些 元 素 。 

Q 当 至 集中 只 含有 一 个 元 素 时 ,为 单元 素 聚 集 。OQL 提供 操作 符 ELEMEMT 将 单元 
素 聚 集 转换 为 单个 元 素 。 

@ 当 聚 集中 含有 多 个 元 素 时 ,首先 通过 ORDER BY 子 句 将 集合 或 包 转 化 为 列表 工 , 然 
后 对 于 获得 的 列表 使 用 序号 访问 其 中 所 需 的 元 素 , 从 而 实现 从 聚集 中 提取 元 素 。 列 表 L 的 
第 i 个 元 素 可 以 用 L[i 一 1] 得 到 ,因为 列表 序号 是 从 0 开始 的 。 

【 例 3-19】 查询 大 于 60 岁 的 教师 ,查询 结果 为 按照 工资 ,年龄 降序 排列 的 列表 形式 。 

facultyList = SELECT * 

FROM faculties 了 
WHERE F.age> 60 
ORDER BY F. salary DESC, F. age DESC; 

说 明 : 此 语句 将 工资 年 龄 降序 排列 的 所 有 faculty 对 象 的 列表 赋予 宿主 语言 变量 
facultyList, 然后 通过 元 素 序号 访问 所 需 元 素 。 对 比 RDB 中 的 游标 访问 多 行 数据 的 技术 ， 
这 种 方法 将 更 为 自然 .简单 和 方便 。 

【 例 3-20】 按照 工资 和 年 龄 降序 排列 打印 年 龄 超过 60 岁 的 教师 属性 (工资 ,年龄 .姓名 
和 工 号 ) 的 C++ 函数 为 : 





facultyList = SELECT * 
FROM faculties F 
WHERE F.age> 60 
ORDER BY F. salary DESC, F. age DESC; 
/* 对 faculties 进行 排序 ,得 到 结果 为 方法 变量 facultyList, 类 型 是 List(faculty)。*/ 
number( )fFaculty = COUNT( facultyList): 
/* 用 oOQ 运算 符 COUNT 计算 教师 的 数量 。*/ 
/* 以 下 直到 结束 是 for 循环 ,在 该 循环 中 整数 变量 i 覆盖 了 该 列表 的 每 个 位 置 。 为 了 方便 ,把 
列表 的 第 i 个 元 素 赋 给 变量 faculty, 然后 在 第 1 行 和 第 n 行 再 打印 教师 的 相关 属性 * / 
for(i=0:1<numberOfFaculty:i++) 
{faculty = facultyList[i] 
cout << faculty. salary <<""<< faculty. age <<"" 
<< faculty. name <<""<< faculty. fno <<"/n"; 
}; 
说 明 : 上 述 语句 中 的 "" 是 将 faculties 转换 为 列表 形式 ,并 将 列表 结果 赋予 宿主 语言 变 
量 facultylist, 然 后 通过 循环 语句 进行 逐个 提取 列表 中 元 素 。 


本 章 小 结 


RDB 自 其 诞生 以 来 一 直 都 是 商用 数据 库 的 主流 和 霸主 ,并 在 可 以 预见 的 将 来 ,这 种 地 
位 似乎 也 不 易 动摇。 但 作为 一 种 技术 ,RDB 却 难以 包 打 天 下 , 它 有 着 自身 的 应 用 边界 。 
RDB 对 于 涉及 事务 处 理 的 业务 范围 十 分 有 效 ,但 对 于 一 些 发 展 迅 猛 的 新 兴 领 域 ,如 网 络 数 
据 、 多 媒体 数据 和 移动 对 象 数据 等 ,其 不 足 与 弱势 就 显露 出 来 。 这 些 弱 势 包括 数据 类 型 简 
单 、 结 构 与 行为 分 离 .查询 实现 复杂 和 阻抗 失 配 等 ,而 这 来 源 于 关系 数据 模型 的 自身 限制 ,不 
能 仅仅 采用 简单 的 补救 。 由 此 ,对 象 数 据 库 应 运 而 生 , 成 为 新 一 代 ( 第 三 代数 据 库 ) 的 典型 代 
表 之 一 。 

对 象 数据 库 分 为 两 种 类 型 。 其 一 是 面向 对 象 程序 设计 语言 的 持久 性 扩充 ,这 就 是 本 章 
讨论 的 面向 对 象 数 据 库 OODB; 其 二 是 关系 数据 库 的 对 象 扩 充 , 这 就 是 第 4 章 将 要 讨论 的 
对 象 关系 数据 库 ORDB。 

OODM 从 本 质 上 来 看 ,实际 上 是 将 面向 对 象 方法 中 的 基本 元 语 和 重要 机 制 在 数据 库 的 
数据 模型 框架 中 进行 适当 的 配置 和 解释 ,这 样 做 的 初衷 自然 是 想 借用 面向 对 象 方法 所 具有 
的 强大 语义 表达 能 力 有 效 处 理 机 制 来 克服 常规 数据 库 的 缺陷 与 不 足 。 但 由 于 程序 诸 言 中 操 
纵 的 数据 具有 了 瞬时 性 ,与 数据 库 需要 存储 的 持久 性 数据 难以 适 配 , 因 此 ,面向 对 象 程序 语言 
的 持久 化 就 是 OODB 所 需要 解决 的 首要 问题 。 一 个 简单 的 方式 是 将 所 涉及 类 中 的 所 有 对 
象 都 进行 持久 化 ,也 就 是 “ 按 类 持久 ”, 但 这 会 带 来 持久 对 象 管理 开销 过 大 的 问题 ,而 在 实际 
应 用 中 ,一 个 类 中 并 不 是 所 有 对 象 都 需要 进行 持久 化 处 理 的 ,因此 ,对 象 持久 化 是 一 个 需要 
精细 分 析 解 决 的 问题 。 

在 解决 对 象 持久 化 之 后 ,面向 对 象 中 的 方法 技术 还 不 能 直接 照搬 到 OODB, 还 需要 按照 
数据 库 管理 技术 指向 对 其 中 元 语 和 机 制 进行 数据 库 技术 框架 下 的 语义 解释 和 业务 处 理工 
作 。 这 种 释义 过 程 的 落脚 点 就 是 OODB 的 技术 实现 ,而 这 种 规范 化 的 释义 就 是 ODMG 中 
的 C++ 持久 化 标准 。 

在 ODMG 标准 中 ,按照 是 否 同时 具有 状态 和 方法 而 将 C++ 的 “对 象 " 具 体 区 分 为 “原子 
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对 象 "? 和 “构造 对 象 ”; 按照 是 否 具有 “附加 ”对 象 标识 而 将 C++ 中 对 象 具 体 区 分 为 “对 象 "和 
“文字 ”。 此 外 ,从 抽象 层面 的 方法 描述 和 技术 层面 上 的 方法 实现 角度 将 “类 型 "和 “类 ”进行 
必要 区 分 : 从 方法 继承 角度 将 “类 ”和 “接口 ”进行 了 必要 区 分 ,进而 将 C++ 中 的 继承 机 制 确 
定 为 “类 继承 ”和 “接口 继承 ”两 种 情形 。 此 外 ,如 果 将 类 的 定义 看 作 一 种 数据 模式 , 则 在 数据 
库 的 实际 应 用 中 一 种 数据 模式 需要 对 应 多 个 数据 实例 ,如 关系 模式 与 关系 实例 的 对 应 。 此 
时 ,就 需要 对 同一 类 模式 对 应 的 不 同 对 象 实例 集合 进行 界定 和 描述 ,也 就 引入 了 类 外 延 的 概 
念 。 类 外 延 实际 上 就 是 相应 数据 集合 的 域 约束 ,这 对 于 数据 管理 和 数据 查询 都 具有 十 分 基 
本 的 意义 。 所 有 这 些 都 可 以 看 作 是 ODMG 标准 对 于 基本 元 语 和 重要 机 制 进行 的 关于 数据 
库 语义 方面 的 进一步 解释 ,同时 也 是 作为 对 象 数据 库 实现 的 更 为 明确 和 实用 的 技术 指向 。 
这 种 数据 库 语义 释义 对 于 将 数据 库 技术 与 各 类 新 兴 计 算 机 技术 有 效 整合 提供 了 良好 的 示范 
效用 和 研究 借鉴 。 

ODMG 数据 语言 主要 由 对 象 数 据 定义 语言 ODL 和 对 象 数 据 查询 语言 OQL 组 成 。 
ODL 不 是 一 套 独 立 的 编程 语言 ,用 户 可 以 相当 灵活 地 使 用 ; OQL 则 具有 明显 的 SQL 风格 ， 
用 户 可 以 对 照 SQL 进行 学 习 使 用 。 
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面向 对 象 数 据 库 自 20 世纪 90 年 代 已 成 为 数据 库 技术 的 研究 热点 ,人 们 对 其 寄予 厚望 
并 曾 预 言 : 作为 第 三 代数 据 库 主流 技术 ,面向 对 象 数据 库 将 会 取代 传统 关系 数据 库 。 然 而 
其 后 形势 并 没有 向 人 们 所 预料 的 方向 发 展 。 相 反 , 面 向 对 象 数 据 库 系 统 推出 后 ,市场 占有 份 
额 一 直 不 大 ,根本 无 法 与 关系 型 系统 抗衡 。 不 要 说 “取代 ”, 甚 至 连 像样 的 “威胁 ”都 难以 企 
及 。 究 其 缘由 ,主要 有 下 述 几 个 原因 。 

(1) 从 实际 应 用 市 场 来 看 : 在 社会 经 济 活动 中 ,数据 库 最 大 的 应 用 领域 依然 是 传统 的 
企 事 业 单位 事务 性 数据 管理 。 在 此 领域 ,有 关 处 理 复杂 对 象 .扩充 数据 类 型 和 设计 相应 特定 
函数 等 并 非 主流 需求 ,但 却 存在 大 量 的 需要 进行 联想 式 访问 的 查询 需求 , 即 任务 依 关 
(mission critical) 查 询 。 这 是 关系 数据 库 强项 ,面向 对 象 数据 库 却 难以 胜任 。 

(2) 从 数据 库 共 享 性 来 看 : 面向 对 象 数据 库 主要 处 理 CAD 和 CIM 等 复杂 数据 对 象 ,而 
这 些 对 象 并 不 适合 多 用 户 的 数据 共享 和 频繁 的 事务 联机 处 理 。 同 时 由 于 用 户 自 定义 数据 操 
作 的 加 入 ,使 得 面向 对 象 系统 的 安全 性 面临 更 多 、 更 困难 的 挑战 ,对 于 系统 的 故障 恢复 也 有 
如 此 问题 。 对 于 大 多 数 企 事业 单位 而 言 ,与 增加 数据 库 某 些 新 的 功能 相 比较 ,数据 库 的 安全 
性 和 故障 恢复 则 更 为 基本 和 重要 。 

(3) 从 系统 蔡 代 开 销 来 看 : 将 已 经 运行 的 关系 型 系统 更 换 为 面向 对 象 系统 是 一 个 相当 
困难 且 痛 苦 的 过 程 。 这 需要 重新 设计 数据 模型 .转换 存储 数据 .对 新 系统 进行 正确 性 验证 和 
修改 调试 原 有 应 用 程序 。 由 于 面向 对 象 系统 的 数据 语言 并 未 与 SQL 兼容 ,这 样 的 替换 工作 
会 严重 影响 甚至 中 断 一 个 单位 的 业务 活动 。 另 外 人 员 的 重新 培训 也 增加 了 用 户 投 资 ,降低 
了 更 换 过 程 中 系统 的 业务 质量 。 

由 于 上 述 原 因 , 人 们 在 数据 库 “ 对 象 化 ?方面 另外 开辟 了 一 条 道路 , 即 在 关系 型 系统 上 增 
加 面向 对 象 某 些 常用 的 基本 功能 ,这 种 具有 对 象 扩 充 功 能 的 新 型 数据 库 系 统 就 是 对 象 关 系 
数据 库 系统 (Object Relational Data Bases, ORDB)。ORDB 系统 本 质 上 还 是 关系 数据 库 
(Relational Data Bases, RDB) 系 统 ,其 特征 是 在 RDB 上 通过 引入 复杂 数据 类 型 突破 1NF 
限制 ,通过 引入 “继承 ”和 “引用 ”等 技术 增添 面向 对 象 过 程 部 分 功能 。 由 于 RDB 主要 用 于 广 
泛 的 事务 处 理 , 并 不 需要 使 用 面向 对 象 系统 的 所 有 功能 ,因此 对 RDB 做 一 些 必要 的 面向 对 
象 扩充 通常 也 可 满足 大 部 分 的 实际 应 用 需求 。 另 外 .OODB 并 没有 成 熟 的 商业 化 产品 , 通 
过 吸取 面向 对 象 技术 基本 概念 ,可 让 面向 对 象 方法 搭载 在 RDB 平台 之 上 先行 进入 市 场 ,也 
不 失 为 一 种 明智 选择 。 其 后 形势 发 展 也 证 明确 实 如 此 。 特 别 是 SQL 已 经 被 人 们 广泛 接 
受 一 一 正如 入 们 所 说 ,“SQL 语言 不 管 其 好 坏 , 仍 然 是 星系 间 数 据 对 话 的 语言 "一 一 ORDB 
作为 RDB 的 面向 对 象 扩 展 ,其 数据 操纵 语句 自然 也 是 常规 SQL 的 扩展 。 离 开 SQL 风格 的 
数据 库 语言 ,从 当今 态势 来 看 ,确实 难以 打开 市 场 。 正 是 在 这 种 背景 之 下 ,ORDB 才 得 到 人 
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们 的 广泛 关注 ,并 且 迅 速 进 入 市 场 。 
本 章 主要 介绍 ORDB 基本 技术 。 


4.1 数据 与 数据 查询 


数据 查询 是 数据 库 最 基本 的 技术 支撑 功能 ,不 同 的 实际 应 用 产生 不 同 复杂 程度 的 各 
类 数据 ,而 相应 地 也 就 有 不 同 复杂 层面 上 的 数据 查询 技术 。 当 然 “ 简 单 "与 “复杂 ”的 界 
定 依赖 于 相应 的 应 用 背景 和 领域 特征 ,同时 也 是 相对 的 ,需要 结合 学 科技 术 要 求 进行 具 
体 分 析 。 


4.1.1 数据 管理 分 类 矩阵 


数据 是 数据 库 的 基本 要 素 ,而 持久 存储 和 管理 数据 是 数据 库 的 核心 功能 。 从 DBMS 技 
术 实 现 的 角度 来 看 ,可 以 将 数据 分 为 “简单 数据 ”与 “复杂 数据 "两 种 类 型 ,同时 将 数据 库 基本 
功能 分 为 “简单 查询 "和 "复杂 查询 ”两 种 情形 。 

1) 简单 与 复杂 数据 

从 数据 管理 应 用 现状 而 言 , 具 有 较 高 抽象 层面 数据 模型 的 数据 相对 而 言 可 以 看 作 是 简 
单 类 型 数据 ,而 具有 更 多 语义 特征 的 数据 模型 可 以 看 作 是 复杂 数据 。 

例如 ,关系 数据 模型 具有 较为 简洁 的 数据 类 型 和 较 高 的 抽象 级 别 , 可 以 看 作 是 数学 中 笛 
卡 儿 乘积 及 其 相关 要 素 在 数据 库 中 的 技术 性 释义 ,相对 而 言 关系 型 数据 就 属于 “简单 类 型 ” 
数据 ; 而 面向 对 象 数据 模型 具有 更 为 复杂 的 数据 类 型 和 更 为 丰富 的 语义 特征 ,是 面向 对 象 
思想 与 技术 的 数据 库 实现 ,同样 相对 对 象 型 数据 而 言 就 属于 “复杂 类 型 "数据 。 

2) 简单 与 复杂 查询 

如 果 数 据 库 系统 数据 管理 工作 主要 围绕 数据 查询 展开 ,同时 管理 所 有 能 够 实现 系统 级 
别 上 统一 的 和 完整 的 查询 实现 机 制 , 则 可 以 认为 是 复杂 查询 ; 如 果 数 据 查 询 只 是 整个 数据 
管理 中 的 一 个 环节 ,系统 提供 的 非 查询 功能 在 整个 系统 机 制 中 占有 更 大 比例 , 则 就 可 以 认为 
是 简单 查询 。 

对 于 RDB 而 言 ,数据 查 询 是 数据 库 功 能 机 制 的 主体 ,通过 “投影 ”选择 "和 “连接 ”3 种 
基本 查询 技术 能 够 实现 “视图 ”多 表 整 合 " 和 “查询 优化 ”等 高 层次 的 完整 查询 要 求 ,因此 关 
系数 据 查 询 可 以 看 作 是 复杂 查询 ; OODB 由 于 其 技术 特征 限定 ,没有 提供 统一 完整 的 系统 
级 别 查 询 机 制 , 同 时 由 于 其 着 眼 于 CAD 等 复杂 类 型 数据 管理 ,数据 查询 不 是 其 频 发 任务 ， 
更 多 的 是 通过 应 用 程序 对 存储 的 数据 对 象 进行 非 查询 处 理 , 因 此 从 查询 角度 而 言 , 可 以 看 作 
是 简单 查询 。 

从 这 个 观点 出 发 ,人 们 通过 由 “简单 数据 “复杂 数据 ”的 数据 维度 和 “简单 查询 “复杂 查 
询 ” 的 查询 维度 为 相应 的 数据 管理 技术 分 类 建立 “DBMS 分 类 矩阵 ”, 如 图 4-1 所 示 。 


4.1.2 基于 分 类 矩 阵 的 数据 管理 系统 


在 图 4-1 中 , 横 轴 为 数据 类 型 轴 , 纵 轴 为 数据 查询 轴 , 两 坐标 轴 都 具有 ”简单 与“ 复杂” 
两 个 标 度 。 如 前 所 述 ,对 于 任何 一 个 有 效 管理 数据 的 DBMS 都 可 以 放 入 图 中 4 个 区 域 当中 
的 某 一 个 区 域 进 行 分 类 识别 。 
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区 域 开 区 域 V 
复 简单 数据 一 复杂 查询 复杂 数据 一 复杂 查询 
杂 (RDB) (ORDB) 


应 用 : 事务 管理 应 用 : 多 媒体 ， 网 络 数据 








区 域 I 区 域 下 
简 简单 数据 一 简单 查询 复杂 数据 一 简单 查询 
单 (文件 系统 ) (OODB) 
应 用 : Word 等 应 用 : CAD 
简单 复杂 数据 











4-1 DBMS 分 类 和 矩阵 


1) 文件 系统 位 于 区 域 [ 

区 域 工 的 特征 是 “简单 数据 一 简单 查询 ”。 

此 时 数据 多 为 基于 字符 的 文本 文件 ,基本 操作 主要 是 读 / 写 文件 ,也 就 是 说 ,数据 查询 在 
整个 数据 操作 过 程 中 并 不 占有 主导 地 位 ,即使 需要 查询 ,也 只 是 借助 操作 系统 而 进行 遍历 式 
查找 。 这 就 是 如 今 广 为 使 用 的 各 类 文件 系统 ,如 Office 中 的 各 类 基本 组 件 等 。 

2) RDB 系统 位 于 区 域 [[ 

区 域 了 [的 特征 是 “简单 数据 一 复杂 查询 ”。 

实际 应 用 中 的 企业 事务 管理 和 各 类 常规 信息 管理 系统 都 位 于 这 个 区 域 ,其 中 的 后 台 
撑 就 是 RDB。RDB 管理 的 数据 元 素 主 要 是 元 组 和 元 组 集合 一 一 关系 表 , 数 据 结 构 相 对 简 
单 ,但 其 所 有 数据 管理 都 是 围绕 数据 查询 展开 的 ,并 提供 从 数据 创建 ,查询 优化 ,视图 管理 、 
并 发 访问 和 故障 恢复 在 内 的 一 整套 系统 级 别 的 数据 查询 机 制 。 其 中 的 非 过 程 化 数据 查询 语 
言 更 是 其 他 各 类 数据 库 数据 查询 语言 的 典范 和 附着 点 ,因此 属于 数据 复杂 查询 范畴 。 以 
RDB 为 代表 的 “简单 数据 一 复杂 查询 ”类 型 是 目前 最 大 的 一 类 数据 库 应 用 领域 ,也 是 当今 难 
以 替代 的 数据 库 商 业 热 点 。 

3) OODB 系统 位 于 区 域 眶 

区 域 星 的 特征 是 “复杂 数据 一 简单 查询 ”。 

位 于 此 区 域 的 数据 库 应 用 主要 是 包括 计算 机 辅助 设计 (CAD)、 计 算 机 辅助 制造 
(CAM) .计算 机 辅助 工程 (CAE)、 机 器 人 学 (Robotics) 和 计算 机 辅助 生产 管理 (CAPMD) 等 
在 内 的 计算 机 集成 制造 系统 (CIMS) ,其 基本 点 是 研发 适合 于 CAD 应 用 的 DBMS。 以 CAD 
为 例 , 其 数据 管理 过 程 通常 是 将 芯片 的 某 种 设计 方案 作为 复杂 数据 持久 存储 在 数据 库 当 中 。 
在 需要 处 理 时 , 先 将 其 由 外 存 读 和 内存, 再 使 用 已 有 相关 计算 机 程序 对 其 进行 修改 优化 ,最 
后 将 优化 处 理 后 的 设计 方案 存 回 到 数据 库 当 中 。 在 相关 数据 管理 过 程 中 ,通常 并 不 需要 进 
行 频繁 的 数据 查询 ,甚至 不 需要 查询 操作 ,主要 是 实现 设计 方案 的 读 取 操 作 、 计 算 操 作 与 写 
回 操作 。 这 在 本 质 上 与 文件 系统 的 数据 管理 过 程 类 似 , 数 据 管 理 的 主体 是 “ 读 " 和 “ 写 ”, 只 是 
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由 于 数据 相当 复杂 ,以 人 工 操作 为 特征 的 文件 系统 难以 有 效 地 读 和 人 相关 信息 以 将 数据 由 外 
存 格式 转换 为 内 存 格式 ,在 计算 操作 完成 后 同样 难以 承担 相应 的 “逆转 换 ? 工 作 。 另 外 ,这 类 
数据 由 于 其 逻辑 描述 和 存储 格式 的 复杂 性 ,RDB 也 难以 胜任 相关 工作 。 实 际 上 ,第 3 章 所 
讨论 的 OODB 的 主要 应 用 背景 就 是 CAD。OODB 以 C++ 为 基础 ,引入 持久 性 对 象 存储 
CAD 数据 ,通过 增加 数据 库 共 享 机 制 , 将 复杂 对 象 的 持久 性 存储 管理 和 相关 计算 机 处 理 密 
切 整合 ,可 以 看 作 是 区 域 亚 的 主要 代表 。 

4) ORDB 系统 位 于 区 域 W 

区 域 K 的 特征 是 “复杂 数据 一 复杂 查询 ”。 

由 于 计算 机 应 用 领域 的 日 益 拓 展 和 数据 库 技术 的 普及 发 展 ,原先 被 认为 是 难以 使 用 数 
据 库 的 部 门 和 领域 都 在 积极 研讨 和 推进 数据 管理 技术 的 应 用 ,其 中 的 显著 代表 就 是 多 媒体 
数据 领域 和 网 络 数据 领域 。 这 两 个 领域 的 数据 对 象 都 具有 较 高 的 复杂 层次 ,相关 数据 管理 
也 都 需要 围绕 基于 内 容 的 频繁 数据 查询 而 展开 。 由 于 数据 的 复杂 性 ,因此 需要 建立 统一 的 
外 存 一 内 存 相互 转 换 机 制 ; 由 于 复杂 数据 操作 中 数据 查询 的 主导 性 ,因此 除了 系统 级 别 的 
数据 操作 机 制 外 ,还 需要 对 于 数据 对 象 个 别 建立 相应 的 计算 机 程序 操作 。 这 就 需要 在 现 有 
数据 库 技 术 的 基础 上 与 面向 对 象 程序 语言 进行 有 效 适 配 整合 ,其 中 基本 点 就 是 扩展 现 有 数 
据 库 ( 如 RDB 的 基本 数据 (类 型 ) 到 复杂 数据 (类 型 )) ,同时 能 够 在 复杂 数据 对 象 层级 上 通过 
函数 实现 相应 计算 机 操作 。 本 章 讨论 的 ORDB 正 是 在 这 样 的 逻辑 框架 和 应 用 背景 下 产生 
和 逐步 发 展 起 来 的 。 





4.2 ”对象 关系 数据 类 型 


RDM 在 逻辑 上 具有 较 高 的 抽象 层次 ,数据 结构 相当 简洁 ,只 有 一 个 核心 概念 ( 即 关 系 
表 ) ,在 应 用 中 适合 于 常规 的 数据 事务 处 理 , 如 银行 业务 .票务 办 理 酒店 预订 .工资 和 人 事 管 
理 等 。 随 着 计算 机 技术 的 发 展 ,数据 库 进入 到 一 个 更 为 广阔 的 应 用 领域 ,需要 对 多 媒体 数 
据 、 网 络 数据 和 移动 对 象 数据 等 进行 有 效 管理 。 面 对 新 的 应 用 需求 ,RDB 显现 出 自身 的 一 
些 局 限 性 。 

(1) 不 支持 复杂 数据 类 型 。 复 杂 数 据 类 型 正 是 新 型 数据 管理 应 用 中 的 基本 对 象 。 

(2) 限制 高 级 程序 语言 直接 访问 。 复 杂 数 据 的 处 理 需 要 高 级 程序 设计 语言 的 参与 ， 
RDB 自身 特征 的 限制 使 得 (如 C++ 或 Java 等 ) 编 写 的 程序 难以 有 效 访 问 数 据 库 数据 。 

由 于 具有 较 强 的 语义 表达 能 力 和 提供 更 好 的 程序 组 织 形式 及 程序 可 靠 性 ,面向 对 象 方 
法 和 思想 已 被 广泛 接受 ,从 20 世纪 90 年 代 开始 ,人 们 开始 将 面向 对 象 思想 方法 引入 RDB， 
对 其 进行 基于 对 象 的 扩展 ,建立 对 象 关系 模型 (Object Relation Data Model, ORDM) ,其 着 
眼 点 是 将 复杂 类 型 数据 和 继承 机 制 引入 关系 数据 管理 过 程 当中 。ORDB 作为 RDB 的 对 象 
扩展 ,本 质 还 是 基于 “关系 ”的 ,这 主要 表现 在 基本 数据 单元 还 是 “元 组 ”此 时 称 为 “ 行 ?或 “ 结 
构 ”) 和 关系 表 , 只 不 过 通过 引入 复杂 数据 类 型 突破 1NF 限制 而 使 得 元 组 和 关系 可 以 相互 嵌 
套 , 青 通过 引入 “继承 "和 “引用 ”等 增添 了 面向 对 象 过 程 基本 功能 ,作为 常规 SQL 的 超 集 , 相 
应 数据 操纵 语言 是 SQL3 和 SQL2003。 





4.2.1 RDB 基于 对 和 象 扩充 


按照 面向 对 象 思想 ,整数 、 浮 点 数字 符 及 布尔 数 等 高 级 程序 设计 语言 中 的 基本 数据 类 
型 实际 上 也 是 面向 对 象 技 术 中 的 “类 ”或 类型", 这 是 因为 它们 本 身 具有 唯一 标识 (文字 字面 
值 ) .操作 运算 (四 则 运算 .字符 串 运 算 或 布尔 运算 等 ) 和 操作 与 属性 的 封装 (运算 过 程 对 于 用 
户 透 明 ) 。 另 外 ,按照 数据 模型 的 概念 ,这 些 基 本 数据 类 型 还 具有 明确 的 数据 关系 (如 数 的 
“大 小 ”关系 等 ) .数据 操作 (如 加 减 乘除 和 模 运 算 等 ) 和 相应 的 数据 约束 (如 两 个 整数 做 除法 ， 
分 母 不 能 为 零 ,结果 一 定 是 整数 等 ) ,因此 ,它们 实际 上 也 可 看 作 数 据 库 意 义 下 的 某 种 数据 模 
型 。 只 不 过 它们 涉及 的 数据 元 素 非常 基本 .数据 关系 比较 简单 和 数据 运算 具有 普遍 意义 而 
没有 显 式 纳 入 面向 对 象 方法 中 的 “类 (类 型 )? 及 数据 库 原理 中 的 “数据 模型 框架 当中 。 但 从 
中 可 以 体会 到 ,建立 数据 库 意义 下 的 “数据 模型 "和 建立 面向 对 象 平台 上 的 “类 (类 型 )”, 从 系 
统 实现 的 技术 角度 来 看 ,都 是 构建 相应 的 “数据 类 型 "*。 另 外 ,需要 注意 的 是 ,在 对 象 数 据 库 
中 ,通常 可 以 将 “(数据 ) 类 型 "看 作 一 种 最 基本 的 “类 ”。 

对 象 关系 数据 模型 (Object Relational Data Model,ORDM) 作 为 关系 数据 模型 扩充 ,着 
眼 点 是 为 了 适应 新 的 应 用 需求 。 面 对 各 类 新 领域 需求 ,首先 就 是 扩充 或 构建 新 的 复杂 数据 
类 型 ,以 提升 关系 数据 模型 对 于 现实 中 较为 复杂 的 实体 ,如 多 媒体 和 网 络 数据 缺少 实际 模拟 
和 抽象 描述 能 力 。 人 们 正 是 从 数据 类 型 人 手 , 基 于 面向 对 象 方法 ,对 传统 的 关系 数据 模型 进 
行 扩充 ,提出 了 ORDM。 这 种 扩充 突出 特点 是 突破 1NF 限制 ,并 使 用 了 面向 对 象 的 重要 思 
想 和 基本 技术 。 

(1) 从 内 置 数据 类 型 上 来 看 。 通 过 引入 新 的 数据 类 型 对 原 有 预 置 数据 类 型 进行 扩充 ， 
通过 扩充 的 原子 数据 类 型 和 相应 构造 器 ,实现 了 属性 值 的 聚集 (多 集 和 数组 ) 数 据 类 型 表示 。 

(2) 从 属性 变量 取 值 来 看 。 通 过 引入 结构 ( 行 或 元 组 ) 数 据 类 型 将 关系 表 中 数据 项 ( 属 
性 值 ) 看 作 具 有 自身 同型 结构 的 数据 实体 ,使 得 属性 变量 可 以 取 值 为 男 一 个 关系 ,实现 了 关 
系 表 的 嵌 套 结构 。 

(3) 从 操作 和 属性 的 封装 上 来 看 。 通 过 引入 抽象 数据 类 型 实现 了 数据 实体 对 象 的 封 
装 ,提供 了 防止 引用 数据 和 调用 方法 过 程 中 子 类 对 超 类 不 合法 改动 的 功能 。 

(4) 从 数据 结构 上 来 看 。 通 过 引入 对 象 标识 实现 了 具有 强大 语义 表达 能 力 的 继承 机 制 
和 由 于 嵌 套 结构 导致 数据 结构 的 分 层 表示 。 

(5) 从 关系 模型 仍然 是 基本 支撑 角度 来 看 。 由 于 借鉴 的 面向 对 象 方法 更 加 接近 于 客观 
世界 中 的 真实 表示 ,因此 ,在 ORDM 中 ,扩充 的 E-R 模型 即 EE-R 模型 中 许多 概念 ,如 实体 
标识 ,多 值 属性 和 泛 化 / 细 化 等 ,无 须 经 过 变换 转化 就 可 直接 使 用 。 

上 述 前 三 点 使 得 对 象 关系 数据 模型 具有 了 “对 象 ” 的 基本 特征 ,以 下 主要 基于 这 三 点 讨 
论 ORDM 。 


4.2.2 对 象 关 系数 据 类 型 


由 RDB 中 数据 类 型 扩展 到 ORDB 中 数据 类 型 实际 上 包含 两 种 情形 : 一 种 是 当 属 性 取 
值 为 原 有 数据 类 型 时 数据 容量 值 的 扩充 ; 另 一 种 是 属性 取 值 为 1NF 时 限制 的 解除 。 

1. 大 数据 类 型 

一 个 系统 需要 有 基本 的 预 置 数据 类 型 。RDB 中 预 置 数据 类 型 不 仅 种 类 较 少 ,同时 各 个 
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预 置 类 型 数据 值 本 身 容 量 较 小 ,这 从 逻辑 上 来 看 也 是 合理 的 ,因为 属性 值 只 是 一 个 数据 项 ， 
不 需要 显 式 地 描述 相关 内 容 , 其 语义 通常 可 以 另行 解释 。 如 同一 个 计算 机 文件 的 标题 那样 ， 
从 存储 代价 上 考虑 不 需要 分 配 过 多 的 存储 空间 。 但 RDB 扩充 到 ORDB 时 ,情况 可 能 就 会 
发 生变 化 。ORDB 的 主要 应 用 对 象 是 多 媒体 数据 和 网 络 数据 (XML) ,从 本 质 上 它们 都 没有 
越 出 RDB 原 有 预 置 数据 类 型 的 范围 。 例 如 ,XML 数据 可 以 看 作 是 字符 串 类 型 数据 ,多 媒体 
可 以 看 作 是 二 进 制 类 型 数据 ,将 它们 作为 某 种 意义 下 的 属性 取 值 而 存 人 数据 库 应 该 是 相 
当 自 然 的 考虑 。 此 时 的 问题 只 是 将 XML 文档 作为 数据 看 待 , 相 应 字符 串 具 有 丰富 的 语 
义 内 容 ; 而 将 多 媒体 对 象 作 为 数据 看 待 时 ,相应 二 进 制 文件 具有 完整 的 声 像 含义 。 丰 富 
语义 和 完整 声 像 其 数据 容量 也 就 不 可 能 满足 原 有 数据 容量 限制 。 另 外 , 当 属 性 取 值 为 新 
引入 的 各 类 复杂 类 型 数据 后 也 有 解除 数据 容量 的 需要 。 由 此 看 来 ,ORDB 在 保留 RDB 原 
有 预 置 数据 类 型 基础 上 ,还 需要 引入 具有 较 大 数据 容量 的 预 置 数据 类 型 ,这 就 是 “大 对 
象 "类 型 数据 。 

大 对 象 (Large Object,LOB) 类 型 是 ORDB 中 引入 的 具有 较 大 存储 容量 的 数据 类 型 ,其 
中 的 数据 容量 至 少 需要 达到 2GB 以 上 ,这 主要 是 基于 XML 文档 多 媒体 数据 及 各 类 新 的 
复杂 数据 取 值 的 实际 需求 ,其 基本 点 是 将 XML 文本 或 多 媒体 文件 (图 形 、 图 像 、 音 频 、 视 频 
等 ) 作 为 单个 属性 值 进 行 存储 管理 。 

ORDB 中 的 LOB 类 型 一 般 分 为 如 下 两 种 子 类 型 情形 。 

(1) 字符 型 大 对 象 数据 类 型 (CLOB) : 用 于 表示 网 页 XML 及 其 他 一 些 字符 型 大 文件 。 

(2) 二 进 制 大 对 象 数据 类 型 (BLOB) : 用 于 表示 视频 .音频 和 图 像 图 形 等 多 媒体 二 进 制 
数据 文件 。 

2. 面向 对 象 类 型 扩充 

RDB 原 有 的 数据 类 型 难以 表达 各 类 新 型 数据 应 用 的 需求 ,而 属性 取 值 的 1NF 规则 又 
大 大 限制 了 关系 数据 的 语义 表达 能 力 。 因 此 ,引入 复杂 类 型 数据 以 增强 系统 内 的 语义 表达 
能 力 实际 上 就 是 需要 解除 RDB 关于 属性 取 值 的 原子 性 INF。 

注意 到 RDM 之 所 以 能 够 提供 系统 级 别 上 统一 的 数据 处 理 机 制 ,其 中 一 个 内 在 缘由 就 
是 简单 的 数据 类 型 和 属性 取 值 原子 性 要 求 。 因 此 ,引入 复杂 类 型 数据 之 后 还 需要 引入 针对 
其 相应 的 函数 操作 功能 , 即 需要 将 某 些 复杂 类 型 数据 与 相应 的 处 理 函 数 绑 定 , 从 而 自然 地 需 
要 引入 面向 对 象 方法 中 的 封装 机 制 。 

从 技术 实现 角度 而 言 ,在 SQL3 或 SQL2003 中 ,解除 1NF 是 引入 聚集 类 型 和 行 类 型 实 
现 ,而 复杂 类 型 数据 与 相关 函数 绑 定 则 通过 引入 抽象 数据 类 型 实现 。 

此 外 ,由 于 数据 可 以 取 值 为 多 层 嵌 套 与 组 合 的 更 为 精细 庞杂 的 复杂 类 型 数据 ,为 了 应 对 
层次 间 各 类 数据 对 象 唯一 识别 要 求 及 提高 系统 处 理 效率 ,还 需要 引入 “引用 (指针 )” 类 型 
数据 。 

由 此 可 见 ，RDB 基于 面向 对 象 的 数据 类 型 也 就 是 ORDB 数据 类 型 ,主要 可 以 划分 为 聚 
集 类 型 行 类 型 .引用 类 型 和 抽象 类 型 等 几 种 情形 ,如 图 4-2 所 示 。 

需要 说 明 的 是 ,图 4-2 只 是 相对 于 RDB 中 新 增添 的 数据 类 型 ,实际 上 ORDB 应 当 兼 容 
RDB, 因 此 ORDB 中 的 数据 类 型 集合 是 RDB 中 数据 类 型 集合 的 超 集 , 即 包 含 了 RDB 中 原 
有 的 各 种 基本 数据 类 型 。 
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4-2 ”ORDB 中 的 数据 类 型 扩充 


3. 聚集 类 型 与 行 类 型 

如 前 所 述 ,1NF 对 于 RDBMS 的 研制 和 实现 具有 重大 的 意义 ,但 这 也 是 RDB 难以 适应 
新 型 数据 库 应 用 的 要 点 所 在 。 实 际 上 ,对 于 RDB 的 各 类 扩展 通常 都 是 由 解除 1NF 为 出 发 
点 的 。 

1) 解除 1NF 限制 

RDM 基本 要 求 是 其 中 的 关系 模式 满足 第 一 范式 即 INF。1NF 对 于 银行 .商店 和 酒店 
等 的 事务 数据 处 理 是 必要 的 与 合理 的 ,但 对 于 其 他 一 些 情 形 却 力不从心 。 例 如 , 当 一 个 用 户 
将 数据 实体 看 作 一 个 对 象 的 集合 而 不 是 元 组 集合 时 ,由 于 对 象 中 静态 属性 取 值 可 能 是 多 值 
的 (如 一 个 人 的 多 个 电子 邮箱 等 ) 和 引用 的 (如 一 个 在 职 博士 研究 生 同 时 也 是 计算 机 学 院 的 
讲师 等 ) ,因此 如 果 按 照 INF 要 求 ,这 些 对 象 就 可 能 需要 由 多 个 不 同 的 元 组 或 多 个 不 同 的 关 
系 表 进 行 描述 。 由 此 会 带 来 如 下 问题 。 

(1) 裂解 数据 语义 。 一 个 数据 对 象 具有 的 完整 语义 信息 被 分 解 为 多 个 满足 1NF 要 求 
的 关系 元 组 ,这 并 不 符合 人 们 的 直观 感受 。 

(2) 增加 属性 域 管理 开销 。 非 1NF 转换 为 1NF 的 基本 途径 就 是 增加 属性 列 , 由 此 将 会 
增加 更 多 的 属性 (数据 ) 域 ,并 带 来 更 大 的 属性 域 完 整 性 方面 的 开销 。 

(3) 加 大 数据 元 余 风 险 。 通 常 属 性 取 多 值 的 关系 表 在 1NF 框架 下 需要 满足 4NF 条 件 ， 
此 时 有 可 能 出 现 更 多 的 在 非 1NF 情形 下 不 会 出 现 的 数据 元 余 问 题 。 

(4) 需要 更 多 的 连接 操作 。4NF 要 求 必然 导致 更 多 更 小 的 关系 表 存 在 ,在 实际 数据 操 
作 时 必须 进行 更 为 频繁 的 连接 操作 ,而 连接 是 关系 表 查 询 操作 中 的 最 大 开销 ,对 系统 效率 影 
响 很 大 。 

实际 应 用 中 , 非 1NF 可 以 体现 在 以 下 两 方面 。 

(1) 属性 取 多 个 类 型 相同 的 值 。 例 如 ,一 个 人 的 通信 联系 为 “办 公 电 话 、 住 宅 电话 ,移动 
电话 \ 传 真 ”方式 ,这 里 ,所 有 数据 项 可 以 在 同一 数据 类 型 中 取 值 。 此 时 可 以 看 作 属性 变量 取 
值 于 聚集 类 型 。 

(2) 属性 取 多 个 类 型 可 以 不 同 的 值 。 例 如 ,一 个 人 的 住址 数据 为 “街道 城市 .邮编 ” 方 
式 , 其 中 各 个 单元 项 在 不 同 数据 类 型 中 取 值 。 此 时 可 以 看 作 属性 变量 取 值 于 结构 类 型 。 

解除 1NF 限制 是 对 数据 类 型 本 身 的 实质 性 扩展 ,主要 由 引入 新 的 数据 类 型 实现 。 在 
SQL3 和 SQL2003 中 ,通过 引入 用 户 自 定义 的 “ 行 ( 结 构 ) 类 型 "实现 了 属性 的 复合 取 值 , 通 
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过 “聚集 (集合 体 ) 类 型 "实现 了 属性 的 同型 多 项 取 值 。 

2) 聚集 类 型 

聚集 类 型 (collection type) 也 称 为 集合 体 类 型 , 它 是 由 一 组 类 型 相同 的 元 素 组 成 的 满足 
一 定 要 求 的 集合 ,具体 可 分 为 数组 列表、 多 集 和 集合 4 种 情形 。 聚 集 类 型 可 以 看 作 C/C++ 等 
中 的 数组 类 型 在 ORDB 中 的 实现 ,其 意义 在 于 从 逻辑 上 将 具有 相同 数据 类 型 的 数据 集合 看 
作 是 具有 “单个 ”数据 域 的 数据 实体 ,在 物理 上 对 如 此 数据 集合 进行 整合 存储 管理 。 在 
ORDB 数据 操作 语言 中 ,聚集 类 型 主要 是 数组 和 多 集 类 型 。 

(1) 数组 类 型 。 数 组 类 型 (array type) 是 指 相同 类 型 元 素 的 有 序 集合 ,数组 大 小 需要 预 
先 设置 。 实 际 应 用 中 ,将 具有 相同 类 型 数据 值 排序 往往 是 必要 的 。 例 如 ,一 本 出 版 物 如 果 有 
多 名 作者 , 则 第 一 作者 、 第 二 作者 等 的 区 分 就 具有 明显 的 意义 。 又 如 ,一 本 著作 的 作者 名 可 
以 以 数组 John,Raul, Mary, White” 形 式 表示 ,这 使 得 人 们 可 以 区 分 各 个 作者 在 该 书 中 的 贡 
献 和 所 担负 的 责任 。 

(2) 多 集 类 型 。 多 集 (multiset) 类 型 是 指 相同 类 型 元 素 的 无 序 集合 ,但 允许 一 个 元 素 出 
现 多 次 ,也 称 为 包 类 型 (bag type)。 例 如 ,一 个 小 组 五 名 同学 的 数据 库 课 程 考 试 成 绩 可 以 表 
示 为 一 个 多 集 类 型 数据 {75 ,80,80,70,80)。 这 里 ,数据 中 元 素 相 互 间 顺序 无 关 紧 要 。 如 果 
要 强调 顺序 ,就 转 回 到 了 数组 。 

需要 注意 的 是 ,聚集 类 型 并 不 复杂 , 当 系统 引入 后 述 的 结构 ( 行 ) 类 型 后 ,没有 聚集 类 型 
也 不 会 影响 其 实际 使 用 。 对 于 系统 而 言 ,将 聚集 类 型 作为 单 分 量 的 结构 类 型 或 单列 表 进行 
处 理 即 可 ,但 这 样 做 对 于 用 户 而 言 却 不 够 直观 自然 。 

3) 行 (结构 ) 类 型 

行 类 型 (row data type) 也 称 为 结构 类 型 (structural data type)、 元 组 类 型 (tuple data 
type) 或 对 象 类 型 (object type) 。 其 表现 为 一 个 元 组 (结构 或 行 ) 且 可 以 多 次 交替 出 现 。 行 
类 型 在 迎 辑 上 对 应 于 “对 象 ”, 在 关系 表 中 表现 为 元 组 或 记录 。 

行 类 型 数据 具有 “数据 项 可 不 同型 ”和 * 元 素 间 可 骨 套 ”的 特点 。 

(1) 数据 项 可 不 同型 。 行 类 型 数据 中 的 各 个 数据 项 可 以 具有 不 同 的 数据 类 型 值 , 既 可 
以 是 合法 的 各 种 数据 类 型 值 ,还 可 以 是 另 一 个 行 类 型 值 。 例 如 ,日 期 (1, April,2017) 是 由 
日 、 月 \ 年 份 3 个 不 同类 型 数据 值 构成 的 行 类 型 数据 。 由 于 结构 类 型 是 传统 关系 模型 中 元 组 
概念 的 对 象 推广 ,因此 基本 要 素 是 其 中 的 属性 名 和 相应 属性 域 。 需 要 注意 的 是 , 行 类 型 中 给 
定 元 素 属 性 域 只 能 包含 在 某 个 确定 的 数据 类 型 当中 。 

定义 由 成 分 属性 firstname 和 lastname 组 成 行 类 型 属性 name。 

Create row type Name as 

(firstname varchar(20), 


lastname varchar(20) ) 
final 


定义 行 类 型 (属性 )address。 


Create row type Address as 
(street varchar(20), 
city varchar(20) 
zipcode int) 
not final 


上 述 两 个 定义 式 中 ,final 和 not final 与 子 类 型 有 关 , 在 SQL3 中 “final” 表 示 行 类 型 
“Name” 不 能 具有 子 类 型 ,而 “not final” 表 明 行 类 型 “Address” 可 以 具有 子 类 型 。 

(2) 元 素 间 可 艇 套 。 注 意 到 元 组 的 集合 就 是 关系 ,因此 结构 类 型 中 某 个 元 素 取 值 也 可 
以 是 另外 一 个 关系 ,此 时 整个 关系 称 为 嵌 套 关系 (nested relation) 。 嵌 套 关系 通常 具有 “ 关 
系 一 属性 值 一 行 ( 关 系 ) 一 属性 值 一 行 ( 关 系 )…… ”的 链接 形式 。 嵌 套 关系 模式 如 图 4-3 
所 示 。 






























































4-3 舱 套 数据 模型 结构 


作为 RDB 的 对 象 扩充 ,如 同 关系 表示 给 定 域 约束 之 后 的 同型 元 组 集合 ,ORDB 中 关系 
也 就 是 给 定 域 约束 之 后 的 行 的 集合 。 在 数学 的 观点 之 下 ,单元 素 集 合 和 组 成 该 集合 的 元 素 
具有 一 一 对 应 关系 ,因此 是 等 价 的 。 由 此 出 发 ,可 以 将 单个 的 行 类 型 数据 也 看 作 是 一 个 关 
系 , 而 将 关系 看 作 是 行 类 型 数据 的 聚集 ,在 不 至 于 混淆 情况 下 ,将 ORDB 中 的 关系 表 看 作 是 
关系 类 型 数据 ,此 时 的 “关系 类 型 "的 逻辑 内 涵 实 际 上 就 是 由 其 组 成 元 素 一 一 行 类 型 数据 所 
界定 。 这 样 实 际 上 是 将 数据 库 中 不 同 粒度 的 数据 元 素 都 统一 看 作 是 同等 迎 辑 层面 上 相应 类 
型 的 数据 ,此 等 “有 意 混用 "会 在 问题 的 分 析 与 处 理 过 程 中 带 来 相当 的 便捷 。 

【 例 4-1】 在 教育 系统 中 ,大 学 (University) 与 教师 (Faculty) 组 成 如 下 非 平面 关系 。 


University(uno, uname, ucity, staff(fno, fname, fage)); 


其 中 ,属性 uno、uname、ucity 和 staff 分 别 表示 学 校 编 号 、 校 名 、 所 在 城市 和 教师 ,而 属性 
fno、fname、fage 分 别 表示 教师 编号 .教师 姓名 和 年 龄 。 这 里 属性 staff 取 值 为 一 个 行 类 型 
数据 集合 , 即 另 一 个 关系 表 , 表 示 一 所 大 学 的 所 有 教师 ,关系 University 就 是 一 个 典 套 关系 。 
类 似 程序 语言 ,可 用 类 型 定义 和 变量 说 明 方 式 描述 典 套 关系 结构 ,以 下 以 伪 码 方式 讨论 
常用 的 3 种 方式 。 
g@ 先 定义 关系 类 型 ,再 定义 关系 数据 。 


type UniversityRel = relation(uno: string, 
uname: string, 
ucity: string, 
staff: FacultyRel); 
type FacultyRel = relation(fno: string, 
fname: string, 
age: integer); 
Persistent var university: universityRel; 


对 背 关 条 改 据 库 
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这 里 组 合 关系 用 持久 变量 (persistent variant) 形 式 说 明 , 供 用户 使 用 。 
@ 先 定义 行 类 型 ,再 定义 关系 类 型 。 
此 时 ,定义 元 组 类 型 UniversityTup 与 FacultyTup, 然 后 定义 关系 类 型 UniversityRel 
与 FacultyRel 分 别 为 UnivertyTup 与 FacultyTup 的 集合 ,这 种 方法 将 更 加 灵活 。 
type UniversityTup = tuple(uno: string, 
uname: string, 
ucity: string, 
staff: FacultyRel); 
type FacultyTup = tuple(fno: string, 
fname: string, 
fage: integer); 
type UniversityRel = set(UniversityTup); 
type FacultyRel = set(FacultyTup); 


@ 不 通过 定义 关系 类 型 ,直接 使 用 集合 set 形式 。 


type UniversityTup = tuple(uno: string, 
uname: string, 
city: string, 
staff: FacultyTup); 
type FacultyTup = tuple(fno: string, 
fname: string, 
fage: integer); 
Persident var university: set(UniversityTup); 
4. 抽象 数据 类 型 
对 象 的 基本 特征 是 状态 (属性 与 联系 ) 和 方法 (操作 ) 的 封装 。 但 数据 库 并 不 完全 等 同 于 
一 般 的 软件 工程 设计 ,其 中 大 部 分 数据 元 素 并 不 需要 自 定义 函数 ,以 及 这 种 函数 与 状态 的 封 
装 ,否则 还 会 带 来 诸如 安全 性 等 方面 的 各 种 问题 。 在 数据 库 中 ,对 数据 的 查询 和 更 新 是 系统 
提供 的 public 操作 , 隐 含 在 系统 当中 ,不 需要 对 每 个 对 象 或 类 各 自 定义 一 套 操作 函数 。 实 
际 上 ,如果 用 户 可 以 不 受 限 制 地 自行 定义 数据 操作 ,数据库 安 全 性 将 得 不 到 保障 。 但 随 着 数 
据 库 应 用 范围 扩展 ,常规 数据 库 中 的 数据 类 型 不 能 适应 所 有 应 用 需求 ,常规 数据 操作 难以 满 
足 新 引进 的 数据 类 型 (图 形 图 像 .音频 影像 和 网 络 数据 等 ) 处 理 需 求 , 需 要 有 更 为 复杂 的 方 
法 。 对 系统 来 说 ,不 可 能 为 这 所 有 的 特殊 需求 都 一 一 定义 相应 的 系统 级 的 数据 操作 。 此 时 ， 
为 满足 一 些 新 型 复杂 数据 类 型 管理 ,就 需要 引入 一 种 新 的 数据 类 型 一 一 抽象 数据 类 型 
(Abstract Data Type,ADT) 。 
ADT 定义 类 似 于 面向 对 象 方法 中 的 “类 "定义 ,ORDM 引入 ADT 的 意义 有 以 下 两 点 。 
@ 可 根据 应 用 需要 扩展 特定 数据 类 型 并 定义 相应 操作 。 
@ 通过 对 象 封装 性 ,只 有 规定 的 函数 可 对 其 操作 ,防止 各 类 错误 操作 对 系统 的 破坏 。 
在 理论 上 ,ADT 需要 和 对 象 属性 进行 封装 ,但 封装 会 引发 一 系列 技术 上 的 改造 ,可 能 会 
涉及 ORDB 的 关系 内 核 ,同时 由 于 实际 应 用 中 只 需要 对 个 别 数据 对 象 定义 不 同 于 系统 统一 
提供 操作 的 数据 运算 ,因此 ORDB 中 的 ADT 并 不 需要 面向 对 象 框架 下 的 那 种 严格 限定 。 
实际 上 ,此 时 的 ADT 不 能 算 作 面 向 对 象 思想 中 的 “方法 ”, 而 只 能 看 作 “ 函 数 ”, 即 动态 操作 
和 静态 属性 在 逻辑 上 是 “分 离 ” 的 。 例 如 ,ORDB 中 的 结构 类 型 可 以 看 作 “ 对 象 ”, 而 作为 函 


数 的 ADT 通常 都 和 结构 类 型 进行 了 必要 的 区 分 。 

Oz 结构 类 型 不 定义 相关 操作 : 因此 ,结构 类 型 是 ORDM 中 更 为 广泛 使 用 的 类 型 。 

@ ADT 创建 中 不 定义 结构 类 型 : ADT 只 定义 属性 (分 量 ) 类 型 ,在 应 用 中 受到 必要 限 
制 ,只 是 作为 结构 类 型 的 一 种 补充 。 

如 上 所 述 ,在 ORDB 中 ADT 只 是 作为 函数 出 现 ,定义 ADT 就 是 定义 相应 的 各 类 函数 ， 
这 主要 分 为 “内 置 函数 ”和 “用 户 定义 函数 ”两 种 情形 。 

1) 内 置 函数 

ADT 属性 部 分 定义 与 结构 类 型 相同 ,但 所 有 ADT 都 应 具有 系统 提供 的 、 适 用 的 公共 
函数 。 在 SQL3 中 ,ADT 可 以 调用 的 公用 函数 有 下 述 3 种 内 置 函 数 。 

(1) 构造 器 函数 (constructor function)。 用 以 生成 一 个 属性 值 为 给 定 值 的 ADT 对 象 ， 
其 语法 格式 为 : < 类 型 名 >([< 需 要 生成 对 象 的 属性 值 >]) 。 

如 果 没 有 给 出 对 象 属性 值 , 则 构造 函数 生成 一 个 属性 没有 被 初始 化 的 对 象 < ADT 名 >()， 
但 具有 相应 对 象 标识 。 

(2) 观察 器 函数 (observer function) 。 对 于 类 型 T 的 每 个 属性 A, 观 察 器 函数 T. A() 
读 取 工 关于 A 上 的 值 , 即 T.AG) 返 回 工 的 属性 A 的 值 。 

(3) 变更 器 函数 (mutation function) 。 用 于 删除 或 修改 对 象 属性 ,其 格式 与 结构 类 型 相 
同 , 功 能 是 将 某 属性 值 设置 成 一 个 新 值 。 该 函数 具有 潜在 破坏 性 ,在 访问 控制 中 需要 对 其 授 
权 进 行 必要 的 限制 。 

SQL3 允许 这 些 内 置 函 数 锁定 公共 应 用 ,并 使 用 EXECUTE 特权 访问 。 

2) 用 户 定义 函数 

除了 所 有 ADT 都 可 以 调用 的 内 置 公 用 函数 外 ,ADT 的 自 定义 函数 分 为 内 函数 与 外 
函数 。 

(1) 内 函数 (internal function) 。 定 义 在 类 型 创建 语句 CREATE TYPE 内 的 函数 ,其 请 
法 格式 为 : 

FUNCTION < 名 称 >(< 参 数 及 其 类 型 >) 

RETURN < 返回 类 型 >; 

< 变量 说 明 >; 

BEGIN 
< 函数 体 > 
END; 

内 函数 通常 使 用 扩充 了 的 SQL 语句 编写 ,适合 于 定义 较 小 的 操作 方法 。 

(2) 外 函数 (external function) 。 在 类 型 创建 语句 中 定义 调用 声明 ,函数 实现 则 置 于 类 
型 创建 语句 之 外 。 外 函数 除了 可 用 SQL 语句 编写 外 ,还 可 用 其 他 程序 设计 语言 编程 。 外 函 
数 具有 较为 严格 的 限制 ,其 调用 函数 必须 为 内 函数 或 系统 内 置 函 数 , 不 能 调用 非 DBMS 定 
义 的 函数 ,以 便 防止 非法 函数 对 系统 的 干扰 和 破坏 。 外 函数 声明 格式 为 : 








DECLARE EXTERNAL FUNCTION < signature> 
LANGUAGE < language name > 


由 此 可 知 ,在 外 函数 声明 中 ,除了 调用 声明 外 还 需要 说 明 其 使 用 的 编程 语言 。 





对 桶 关系 数据 认 
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5. 引用 数据 类 型 

行 类 型 会 带 来 数据 对 象 与 属性 值 之 间 的 相互 嵌 套 。 从 面向 对 象 方法 角度 考虑 ,这 种 属 
性 值 对 相应 对 象 ( 行 类 型 ) 的 调用 应 当 通过 OID* 间 接 ” 进 行 。 继 承 机 制 中 子 类 对 于 超 类 属性 
值 调 用 也 是 如 此 ,需要 通过 相应 OID 进行 。 实 际 上 ,如 果 直 接 调用 数据 实体 ,就 有 可 能 带 来 
语义 上 的 混乱 ,造成 无 穷 谋 套 。 例 如 下 述 两 个 关系 : 

UniversityRel (uno, uname, ucity, staff(FacultyRel)); 

FacultyRel (fno, fname, fage, works - for(UniversityTup)) 

上 述 定 义 中 分 别 涉及 行 类 型 UnivesityTup 和 FacultyRel( 本 身 是 一 个 关系 ), 即 在 关系 
universityRel 的 元 组 (UnivesityTup) 中 包含 关系 FacultyRel 的 成 分 ; 而 关系 FacultyRel 的 
行 类 型 (FacultyTup) 中 又 包含 行 类 型 为 UnivesityTup 的 成 分 。 此 时 类 型 构造 示意 如 图 4-4 
所 示 。 由 于 会 引发 无 穷 府 套 , 这 种 “直接 ”调用 数据 实体 的 情形 通常 不 能 使 用 。 


UniversityRel Rel FacultyRel 


Tup FacultyTup 








直接 取 值 
图 4-4 递归 引发 无 穷 嵌 套 


引用 (reference) 是 一 种 “间接 ”调用 数据 实体 的 技术 , 即 当 属性 变量 取 值 为 一 个 结构 类 
型 时 ,系统 存储 和 管理 相应 类 型 中 的 数据 对 象 的 对 象 标识 即 OID, 将 类 型 中 的 实例 映射 到 类 
型 中 的 OID ,通过 OID* 间 接 ” 提 供 有 关 对 象 的 细节 抽象 。 使 用 引用 机 制 避免 数据 调用 过 程 
中 的 "无穷 谋 套 ”问题 。 

前 述 行 类 型 UniversityTup 中 有 一 个 属性 staff 的 数据 类 型 是 关系 类 型 FacultyRel ,在 
实现 时 可 以 不 采用 原 有 实例 调用 方式 ,而 是 采用 “引用 方式 "(指针 方式 ) ,用 指针 指向 关系 类 
型 FacultyRel 中 各 个 有 联系 的 职工 。 元 组 FacultyTup 中 有 一 个 属性 是 行 类 型 
UniversityTup, 实 现时 也 采用 “引用 方式 ”。 图 4-5 所 示 的 是 采用 “引用 ”类 型 后 的 类 型 构造 
示意 图 。 图 中 用 虚线 表示 “引用 ”类 型 , 实 线 表示 类 型 与 成 分 相连 。 




















UniversityRel Rel Rel FacultyRel 
引用 (指针 ) 
党 

UniversityTup Tw -J Tup FacultyTup 
可 用 di 外 SS 


图 4-5 采用 “引用 ”概念 的 类 型 构造 


由 此 可 知 , 如 果 类 型 中 一 个 对 象 的 属性 取 值 为 引用 , 则 该 属性 值 就 是 被 引用 对 象 的 OID 
而 非 该 对 象 的 实际 取 值 。 在 面向 对 象 方法 中 ,OID 对 于 用 户 来 说 透明 ,是 一 种 系统 码 , 但 在 
ORDB 系统 中 ,允许 用 户 以 引用 类 型 REF 访问 OID, 但 仅 限于 访问 而 不 可 修改 。 


4.2.3 继承 机 制 


按照 面向 对 象 方法 , 行 对 应 于 对 象 ,而 同型 对 象 构成 所 在 类 。RODM 中 最 基本 的 数据 
结构 就 是 类 之 间 的 相互 关系 。 在 面向 对 象 观点 之 下 ,这 种 类 的 相互 关系 的 基本 语义 特征 就 
是 “一 般 / 具 体 ”, 即 “ 超 类 / 子 类 ”关联 。 因 此 建立 了 行 类 型 之 后 ,还 需要 讨论 相应 的 类 继承 在 
RODB 中 的 技术 实现 机 制 。 

“一 般 / 具 体 ? 是 讨论 不 同类 型 之 间 关 联 的 出 发 点 ,这 在 面向 对 象 方法 当中 也 称 为 “ 泛 化 
和 细 化 ”。 不 同类 之 间 的 “ 超 类 / 子 类 ”关联 在 理论 上 不 仅 体 现 了 泛 化 / 细 化 理念 ,对 涉及 演化 
问题 的 数据 系统 ,还 在 技术 上 避免 重复 定义 ,减少 数据 元 余 , 实 现 重用 与 联 编 ,提高 系统 
效率 。 

1) 泛 化 和 细 化 

泛 化 和 细 化 (generalization and specialization) 是 对 概念 间 联 系 进行 抽象 的 一 种 方法 。 
当 较 低层 面 上 的 抽象 表达 了 与 之 联系 的 较 高 层面 上 的 抽象 的 特殊 情况 时 , 则 称 较 高 层面 上 
抽象 是 较 低 层面 上 抽象 的 “ 泛 化 ”, 而 较 低层 面 上 抽象 是 较 高 层面 上 抽象 的 “ 细 化 ”"。 这 种 细 
化 联系 是 一 种 “是 ”(is a) 的 联系 。 在 具有 泛 化 和 细 化 的 对 象 类 型 之 间 , 较 高 层面 上 的 对 象 类 
型 称 为 * 超 类 型 "(supertype) 或 “ 基 类 型 "(basetype) , 较 低层 面 上 的 对 象 类 型 称 为 “ 子 类 型 ” 
(subtype) 或 “派生 类 型 "(devoidedtype)。 

2) 继承 与 继承 分 类 

在 继承 机 制 中 , 子 类 型 继承 其 超 类 型 的 属性 和 函数 ,同时 子 类 型 本 身 还 具有 其 他 的 特定 
属性 和 函数 。 

(1) 按照 子 类 是 否 继承 超 类 的 所 有 属性 和 函数 ,可 将 继承 分 为 全 继承 和 部 分 继承 。 

(2) 按照 一 个 子 类 是 否 具有 多 个 超 类 ,可 将 继承 分 为 多 继承 和 单 继承 。 

(3) 按照 子 类 的 父 类 是 否 还 有 父 类 ,可 以 将 继承 分 为 链 继承 和 非 链 继承 。 

部 分 继承 、 多 继承 和 链 继承 可 表示 更 为 丰富 的 语义 内 容 ,更 加 适合 于 实际 中 的 应 用 情 
形 , 但 技术 处 理 比较 复杂 。 

在 ORDB 中 所 需要 讨论 的 继承 机 制 课题 主要 有 下 述 几 点 。 

(1) 在 部 分 继承 中 如 何 统 一 制定 继承 的 语法 格式 描述 。 

(2) 在 多 继承 和 继承 链 中 如 何 处 理 多 个 父 类 都 具有 同名 属性 和 同名 函数 问题 ,这 涉及 
面向 对 象 方法 中 的 精华 一 一 多 态 和 联 编 等 。 

(3) 给 出 一 个 查询 语句 ,在 继承 链 中 ,是 只 查找 子 类 中 满足 条 件 的 对 象 数据 ,还 是 在 涉 
及 的 所 有 类 ( 子 类 或 超 类 ) 中 查找 满足 条 件 的 数据 。 


4.3 ”对象 关系 数据 模型 


通过 复杂 数据 类 型 (聚集 与 结构 类 型 ) ,解除 了 关系 数据 模型 的 INF 束缚 ; 通过 抽象 数 
据 类 型 ADT ,部 分 实现 了 数据 对 象 的 自 定义 操作 ; 通过 引入 继承 机 制 ,具有 了 派生 和 重用 
的 功能 。 以 这 些 基 于 对 象 的 拓展 为 基础 ,就 可 将 关系 数据 模型 (RDM) 拓 展 到 对 象 关系 数据 
模型 (ORDM) 。 
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4.3.1 PRDM 与 ORDM 


从 逻辑 和 技术 角度 来 看 ,RDM 到 ORDM 的 拓展 可 以 分 为 两 个 步骤 ,先是 将 数据 类 型 
拓展 的 复杂 数据 类 型 得 到 “后 关系 模型 ”, 再 将 后 关系 模型 拓展 为 对 象 关 系数 据 模 型 。 

1. 后 关系 数据 模型 

后 关系 数据 模型 (Postrelational Data Model, PRDM) 可 通过 将 关系 数据 模型 进行 下 述 
两 方面 扩充 而 得 到 。 

(1) 元 组 属性 取 值 可 为 聚集 数据 类 型 (数组 ,列表 、 多 集 和 集合 )。 

(2) 元 组 属性 取 值 可 为 结构 数据 类 型 ,并 且 还 可 进行 相应 的 嵌 套 取 值 。 

需要 说 明 的 是 ,由 于 单个 元 组 ( 行 ) 和 由 其 组 成 的 单元 素 集合 存在 一 一 对 应 关系 , 因 
此 ,在 逻辑 上 可 以 对 * 单 个 元 组 ”和 * 元 组 组 成 集合 ”不 加 区 分 而 “有 意 ” 混 用 ,在 此 意义 下 ， 
属性 取 值 为 “单个 ”元 组 就 认为 是 取 值 于 由 该 元 组 构成 的 单元 素 元 组 集合 ,因此 就 自然 得 
到 元 组 属性 可 以 取 值 于 “元 组 集合 " 即 关 系 表 。 如 果 将 同型 结构 组 成 的 元 组 集合 看 作 “ 关 
系 表 ” 或 “关系 类 型 ”, 此 时 ,结构 类 型 的 谋 套 可 以 统一 描述 为 “属性 可 以 取 值 于 另 一 个 关 
系 类 型 ”。 

简 而 言 之 ,引入 了 复杂 数据 类 型 (聚集 和 结构 类 型 ) 的 RDM 就 是 PRDML。 

PRDM 结构 如 图 4-6 所 示 。 
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4-6 后 关系 数据 模型 结构 


2. 对 象 关 系数 据 模型 

对 象 关系 数据 模型 (Object-Relational Data Model,ORDM) 可 通过 将 PRDM 进行 下 述 
两 个 方面 扩充 而 得 到 。 

(1) 引入 “继承 "机制 以 实现 结构 类 型 之 间 的 “层次 ”关联 。 

(2) 引入 元 组 对 象 标识 和 “引用 技术 ”以 实现 递归 过 程 中 的 “指针 ” 取 值 。 

如 前 所 述 ,RDB 具有 支持 数据 类 型 有 限 和 不 支持 高 级 语言 程序 直接 访问 数据 库 两 个 明 
显 弱 势 。 ORDM 较 好 地 解决 了 上 述 第 一 个 问题 ,部 分 解决 了 第 二 个 问题 。ORDM 提供 了 
更 为 丰富 的 类 型 系统 (基本 类 型 聚集 类 型 和 结构 类 型 ) 和 面向 对 象 的 基本 机 制 ( 对 象 标 识 、 
数据 引用 和 类 型 继承 ) ,在 对 关系 模型 扩充 建 模 能 力 的 同时 保持 了 关系 模型 最 重要 的 基 
础 一 一 关系 表格 结构 和 关系 的 非 过 程 性 访问 。 基 于 ORDM 的 ORDBS 为 需要 使 用 面向 对 
象 特征 的 RDB 用 户 提供 了 一 个 简单 快捷 的 移植 途径 。 


4.3.2 对 象 联系 图 


在 关系 数据 框架 内 ,可 以 有 效 使 用 实体 联系 图 即 E-R 图 ; 在 基于 对 象 扩展 的 对 象 关系 
框架 内 ,也 需要 将 E-R 图 扩充 为 对 象 联 系 图 即 OR 图 。 

OR 图 基本 成 分 可 以 描述 如 下 。 

QO@ 椭圆 : 表示 对 象 类 型 (相当 于 实体 类 型 ) 。 

@ 小 圆 : 表示 属性 是 基本 数据 类 型 ( 整 型 . 实 型 .字符 串 型 等 ) 。 

@ 椭圆 之 间 的 边 : 表示 对 象 之 间 的 嵌 套 或 引用 。 

@ 单 箭 头 ( 一 ) : 表示 属性 值 是 单 值 (可 以 为 基本 数据 类 型 ,也 可 以 是 另 一 个 对 象 数据 
类 型 , 即 结 构 数 据 类 型 ) 。 

@ 双 箭 头 ( 一 ~): 表示 属性 值 是 多 值 (属性 值 是 基本 数据 类 型 ,或 者 是 另 一 个 对 象 数 
据 类 型 , 即 关 系数 据 类 型 ) 。 

@ 双 线 箭头 ( 史 ) : 表示 对 象 类 型 之 间 的 超 类 与 子 类 类 型 (由 子 类 指向 超 类 ) 。 

@ 双向 箭头 (所 一 ) : 表示 两 个 属性 之 间 的 值 的 互 着 联系 。 

图 4-7 所 示 的 是 一 个 数据 库 模 式 的 对 象 联系 图 ,其 中 有 大 学 教师、 上 课 教 材 等 信息 。 
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图 4-7 对 象 联系 


University: 有 关 大 学 信息 的 对 象 类 型 ,共有 6 个 数据 类 型 ,其 中 学 校 编号 (uno) 、 校 名 
(uname) 和 学 校 所 在 城市 (city) 等 是 基本 数据 类 型 ; 属性 校长 (president) ,staff 和 edit 是 复 
合 数据 类 型 ,其 中 president 是 单 值 属 性 ,表示 学 校 中 有 一 位 教师 是 校长 ，staff 和 edit 是 多 
值 属性 ,分 别 表示 学 校 有 若干 教师 .属性 edit 表示 学 校 编写 了 若干 本 教材 。 

Faculty: 有 关 教 师 信 息 的 对 象 类 型 ,共有 6 个 属性 。 其 中 教师 工 号 (fno)、 姓 名 
(fname) ,年 龄 (age) 和 工资 (salary) 是 基本 数据 类 型 ， works-for 表示 教师 服务 的 学 校 ,为 单 
值 属性 ,是 复合 数据 类 型 ; teach 也 是 复合 数据 类 型 ,为 多 值 属性 ,表示 教师 开 了 若干 门 
课程 。 

Coursetext: 有 关 课 程 与 教材 信息 的 对 象 类 型 ,共有 4 个 属性 。 其 中 两 个 是 基本 数据 类 
型 , 即 课程 名 cname 和 教材 名 textname; 还 有 两 个 数据 是 复杂 数据 类 型 ,属性 teacher 表示 
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开课 的 教师 ,editor 表示 教材 编写 的 学 校 。 

类 型 定义 中 的 成 分 现在 用 从 类 型 定义 到 值 域 类 型 的 属性 表示 ,如 teach 是 一 个 从 对 象 
类 型 Faculty 到 对 象 集合 (其 成 分 是 Coursetext 类 型 ) 的 属性 。 属 性 之 间 的 双向 箭头 (一 一 ) 
表示 两 个 属性 之 间 的 联系 为 互 逆 联 系 。 例 如 ,teach 和 teacher 是 一 对 互 逆 的 属性 ,此 处 ， 
teach 是 多 值 属性 ,teacher 是 单 值 属性 ,实际 上 体现 了 Faculty 与 Coursetext 之 间 对 象 的 
1 :nn 关系 。 

【 例 4-2】 图 4-8 所 示 的 是 一 个 带 泛 化 / 细 化 联系 的 OR 图 。 对 象 类 型 Person 是 一 个 
超 类 型 ,有 属性 name( 姓 名 ) 和 age( 年 龄 )。 对 象 类 型 Faculty 是 Person 的 一 个 子 类 型 , 自 
动 具有 name 和 age 两 个 属性 ,表示 “每 个 教师 是 一 个 人 ”的 语义 。 但 子 类 型 Faculty 还 可 以 
比 超 类 型 Person 有 更 多 的 属性 ,如 fno( 工 号 ) ,salary( 工 资 ) 等 。 

对 象 类 型 Student 也 是 Person 的 一 个 子 类 型 。 自 动 具 有 name 和 age 两 个 属性 ,同时 ， 
自己 还 有 属性 sno( 学 号 ) 。 在 图 4-8 中 , 泛 化 / 细 化 联系 用 泛 化 边 ( 双 线 箭头 ) 表 示 , 泛 化 边 从 
子 类 型 指向 超 类 型 。 


name QO OO age 


() salary ee 


4-8 带 泛 化 边 的 对 象 联系 图 


OR 图 是 描述 对 象 关系 数据 模型 的 基本 工具 , 它 不 仅 完整 揭示 了 数据 之 间 的 联系 ,也 把 
查询 的 层次 观点 表现 得 相当 清楚 。 例 如 ,一 个 查询 可 能 是 从 University 开始 ,把 Faculty 看 
成 是 它 的 子 对 象 (通过 值 为 集合 的 函数 staff) 。 这 样 ,查询 形式 如 同 数据 库 中 有 嵌 套 关系 
University(… ,staff(…)) ,这 里 的 子 关系 staff 包含 了 一 所 大 学 的 所 有 教师 信息 。 但 是 , 另 
一 个 查询 可 能 正好 相反 ,那么 就 要 用 相反 的 层次 观点 解释 。 例 如 ,从 Faculty 开始 查询 ,把 
University 作为 子 对 象 ,通过 单 值 函 数 work-for 来 实现 ,如 果 数 据 库 中 有 嵌 套 关系 Faculty 
(*… ,works forC(uname,city,…))。 任 何 形式 的 层次 联系 均 被 包含 在 对 象 联 系 图 中 ,而 且 实 
现时 不 会 有 元 余 现 象 。 

研究 ORDM 后 就 需 讨论 相应 的 数据 库 系 统 操作 语言 ,如 同 ORDM 是 RDM 的 扩充 , 相 
应 的 ORDB 语言 也 应 当 是 SQL 的 扩充 。 


4.3.3 ”对象 关系 数据 库 语 言 SQL3 


在 20 世纪 80 年 代 中 期 , 随 着 面向 对 象 技术 的 兴起 ,人 们 开始 在 传统 SQL 语言 基础 上 
加 入 面向 对 象 内 容 。 

早期 对 象 关系 系统 POSTGRES 在 1986 年 由 美国 加 州 大 学 伯克利 分 校 开 发 ,Ilustra 
是 POSTGRES 的 商业 化 版 本 。 


惠普 公司 在 1990 年 推出 的 Iris 系统 ,支持 一 种 称 为 ObjectSQL(OSQL) 的 语言 。 

1992 年 ,Kifer 等 提出 的 XSQL 也 是 SQL 的 面向 对 象 扩充 。 在 SQL 标准 的 1999 年 版 本 
中 ,增加 了 对 象 关 系 扩展 ,而 在 SQL 的 2003 年 版 本 中 ,也 引入 了 具有 对 象 关 系 特征 的 标准 。 

以 下 沿用 通常 说 法 ,将 包含 对 象 关 系 功能 的 SQL 称 为 SQL3。 

SQL3 标准 包括 下 述 4 个 主要 部 分 。 

1) 框架 .基础 、 绑 定 和 对 象 

这 些 基础 部 分 主要 是 SQL/ 框 架 、SQL/ 基 础 .SQL/ 绑 定 和 SQL/ 对 象 。 

(1) SQL/ 基 础 处 理 新 的 数据 类 型 新 的 谓词 .关系 操作 、 游 标 、 规 则 和 触发 器 、 用 户 自 定 
义 类 型 .事务 管理 和 存储 例 程 。 

(2) SQL/ 绑 定 包 括 戏 入 式 SQL 和 类 似 于 SQL2 中 的 直接 调用 。 

(3) SQL/ 对 象 包括 新 的 数据 类 型 ,如 二 进 制 大 数据 对 象 (LOB) 及 大 对 象 定 位 器 、 用 户 
自 定义 数据 类 型 .类 型 构造 器 聚集 类 型 .用 户 自 定义 函数 和 过 程 和 触发 器 。SQL3 中 的 对 
象 主要 有 以 下 两 类 。 

@ 结构 类 型 或 行 类 型 ,其 实例 就 是 “关系 表 ” 中 的 元 组 。 

@ 抽象 数据 类 型 (ADT) ,其 特征 是 通用 类 型 ,与 “类 ”概念 类 似 , 主要 用 于 元 组 分 量 。 

2) 新 部 分 寻 址 时 序 ,SQL 事务 管理 

SQL 时 序 用 于 处 理 历史 数据 、 时 间 序 列 数据 和 其 他 时 序 扩展 ,其 基本 标准 是 由 TSQL2 
委员 会 提供 。SQL 事务 管理 说 明 规范 化 供 SQL 实现 者 使 用 的 XA 接口 。 

3) SQLVCLI, 即 调用 层 接口 

QL/CLI 提供 某 些 规则 ,这 些 规 则 允许 执行 没有 给 出 源 代 码 的 应 用 代码 ,并 且 避 免 了 进 
行 预 处 理 的 需要 。 它 还 提供 了 一 种 新 的 类 似 于 动态 SQL 的 语言 绑 定 类 型 。 

4) SQL/PSM, 即 永久 存储 模块 

SQL/PSM 指定 在 客户 机 和 服务 器 之 间 划 分 应 用 的 设施 ,其 目的 是 通过 最 小 化 网 络 流 
量 来 增强 性 能 。 

由 此 可 见 , 增 加 了 对 象 关 系 功能 的 SQL 标准 具有 下 述 基本 特征 。 

(1) 具有 传统 RDB 标准 SQL 的 基本 功能 。 

(2) 具有 定义 数据 类 型 与 抽象 数据 类 型 的 能 力 。 

(3) 具有 数据 之 间 继 承 与 组 合 的 功能 。 

(4) 具有 自 定义 函数 和 使 用 的 功能 。 

正 是 由 于 这 种 SQL 具有 经 典 SQL 明显 特征 ,又 进行 了 必要 的 面向 对 象 扩充 ,适应 于 
ORDB 模式 定义 ,数据 操作 和 数据 控制 ,因此 称 为 ORDB 的 基本 语言 。 现 有 ORDB 基本 都 
遵循 相应 SQL 的 工业 标准 。 

如 前 所 述 ,这 就 是 SQL3。 本 节 主 要 讨论 ORDB 语言 SQL3 的 一 些 最 基本 内 容 , 如 数据 
创建 .数据 查询 与 更 新 等 。 


4.4 对 象 关系 数据 创建 


从 技术 实现 角度 来 看 ,数据 类 型 就 是 给 定 变 量 的 取 值 域 和 相应 操作 运算 ,以 便 系统 对 于 
变量 取 值 进行 存储 操作 和 有 效 处 理 。 在 常规 关系 中 ,基本 操作 单元 或 技术 变量 是 元 组 ,在 对 
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象 关 系 当 中 ,通过 引入 嵌 套 机 制 等 将 * 元 组 扩展 为 “ 行 类 型 ", 此 时 的 数据 操作 单元 就 是 “类 
型 ,因此 ,SQL3 的 类 型 创建 是 ORDB 语言 的 重要 特色 。 

由 系统 原 有 的 和 新 建 的 内 置 数据 类 型 (扩展 类 型 ) 就 可 创建 用 户 定义 类 型 ,主要 包括 聚 
集 类 型 行 类 型 及 ADT 和 引用 类 型 。SQL3 的 数据 类 型 如 图 4-9 所 示 。 


预 置 类 型 
(内 置 数据 类 型 ) 


聚集 类 型 行 (结构 ) 类 型 ADT 和 引用 类 型 
(数组 和 多 集 ) 关系 类 型 (内 置 与 自 定义 函数 ) 


图 4-9 SQL3 的 数据 类 型 
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4.4.1 类 型 创建 


ORDB 数据 类 型 较 之 RDB 更 为 丰富 ,也 比较 复杂 。 首 先 需 要 明确 新 增加 的 预 置 数 据 类 
型 ,然后 再 基于 内 置 数据 类 型 创建 复杂 数据 类 型 , 即 结构 与 聚集 类 型 。 另 外 ,还 需要 创建 由 
于 嵌 套 行 类 型 而 需要 的 引用 类 型 ,同时 还 有 面向 对 象 方法 中 的 继承 机 制 。 

1. SQL3 预 置 数据 类 型 

SQL3 除了 保留 常规 SQL 原 有 的 基本 数据 类 型 外 ,同时 也 在 此 基础 上 增加 了 
BOOLEAN CLOB 和 BLOB 3 种 新 的 基本 数据 类 型 。 通 过 这 些 内 置 基本 数据 类 型 ,就 可 以 
创建 各 类 用 户 自 定义 数据 类 型 。 

(1) BOOLEAN 数据 类 型 : 这 是 一 个 真 值 类 型 ,具有 值 域 {True, False,unknown} , 支 
持 not\and 和 or 3 种 逻辑 操作 。 同 时 ,SQL3 还 增加 了 两 个 新 的 操作 : every 和 any。 这 两 
个 操作 的 参数 都 是 BOOLEAN 数据 类 型 ,通常 可 由 一 个 表达 式 得 到 。 

(2) CLOB(Character Large Object) 数 据 类 型 : 这 是 一 种 长 度 不 受 限 制 的 变 长 字符 串 ， 
通常 处 理 定位 操作 ,主要 用 于 存储 长 字符 串 数据 。 其 功能 类 似 于 游标 操作 ,可 以 将 一 般 字 符 
操作 难以 处 理 的 字符 串 分 别处 理 , 同 时 支持 “相等 "与 “ 通 配 LIKE"? 操 作 。 

(3) BLOB(Binary Large Object) 数 据 类 型 : 这 是 一 种 二 进 制 串 ,通常 处 理 初等 算术 操 
作 ,主要 用 来 存储 音频 和 图 像 数 据 。 

【 例 4-3】 BLOB 数据 类 型 。 

CREATE TABLE mail (origin VARCHAR(20), 

address VARCHAR(20), 
arrival DATE, 
message BLOB(10M) 

); 

说 明 : 属性 message 取 值 于 二 进 制 大 数据 对 象 类 型 BLOB。 大 数据 对 象 通常 用 于 外 部 
应 用 ,通过 SQL 对 其 进行 全 体 搜索 是 无 意义 的 。 在 应 用 程序 中 ,一 般 只 查询 大 对 象 的 “定位 
器 ”, 然 后 通过 定位 器 从 宿主 语言 中 操作 该 数据 对 象 。 

2. 行 (结构 ) 类 型 

SQL3 扩展 类 型 系统 中 新 增 的 行 类 型 是 其 特色 。 行 类 型 语法 格式 如 下 。 


CREATE ROW TYPE < ROW name > AS(< component declarations >) . 


说 明 : 此 时 的 关键 词 ROW 可 以 省 略 。 
【 例 4-4】 创建 行 类 型 。 
CREATE TYPE Emp AS(name VARCHAR(35), 


age INTEGER 
); 


CREATE TYPE Comp AS(compname VARCHAR(25), 
location VARCHAR(20) 
); 


创建 相应 的 关系 表 : 


CREATE TABLE Employee OF Emp 
VALUE FOR emp_id ARE SYSTEM GENERATION; 


CREATE TABLE company OF Comp; 


说 明 : 行 类 型 的 对 象 标识 由 系统 生成 ,上 述 子 句 “VALUE FOR emp_id ARE SYSTEM 
GENERATION” 就 表明 了 这 一 点 。 
【 例 4-5】 生成 行 类 型 。 
CREATE TABLE cust (cust# CHAR(4), 
addr ROW (street CHAR(50), 
city CHAR(25), 
state CHAR(2), 
zip CHAR(10)) 
PRIMARY KEY (cust #) 
); 
说 明 : 上 式 中 的 ROW 称 为 无 名 称 行 (类 型 ) ,因为 是 在 关系 表 中 直接 定义 , 故 不 需要 赋 
予 其 名 称 , 因 而 得 名 。 
3. ADT 创建 
结构 类 型 提供 了 将 数据 项 属性 值 看 作 * 对 象 " 的 功能 ,并 允许 通过 行 的 嵌 套 实现 复杂 类 
型 构造 ,但 并 不 提供 对 象 的 封装 机 制 。 用 户 对 于 相应 数据 的 特定 操作 通过 ADT 函数 实现 。 
1) ADT 声明 
抽象 数据 类 型 (Abstract Data Type, ADT) 也 称 为 用 户 定义 数据 类 型 , 它 是 SQL3 提供 
的 类 似 于 “类 ”的 对 象 类 型 构造 ,通过 ADT, 用 户 可 根据 需要 自行 定义 带 有 自身 行为 说 明和 
内 部 构造 的 用 户 数据 类 型 (数组 和 多 集 )。ADT 定义 包括 下 述 基 本 内 容 。 
Oz 关键 字 CREATE TYPE。 
@ ADT 名 称 。 
@ 关键 字 AS。 
@ 用 “O 〇 ” 括 起 来 并 由 逗号 分 隔 的 属性 及 类 型 列表 。 
@ 用 逗号 分 隔 的 方法 列表 ,此 时 的 方法 包括 参数 类 型 和 返回 类 型 。 
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由 此 得 到 创建 ADT 的 一 般 格式 为 : 


CREATE TYPE < RDT name > AS (属性 名 称 及 其 类 型 ， 
EQUAL、LESS THAN 函数 声明 ， 
其 他 函数 或 方法 声明 
); 


【 例 4-6】 创建 抽象 数据 类 型 AddressType 和 StudentType。 


CREATE TYPE AddressType AS(street CHAR(50), 
city CHAR(20), 
FUNCTION houseNumber( )RETURN CHAR(10)); 


CREATE TYPE StudentType RS (name CHAR(30), 
address AddressType 
»s 


说 明 : 在 SQL3 中 ,关键 字 FUNCTION 需要 后 面 紧 跟 方法 名 称 和 一 个 用 括号 把 参数 
和 参数 类 型 都 括 起 来 的 列表 。 本 例 抽 象 数据 类 型 AddressType 中 ,方法 没有 参数 ,但 括号 
仍然 必需 。 参 数 的 表达 形式 为 参数 名 称 和 参数 类 型 ,如 (a INTEGER, b CHAR(5)) 等 。 在 抽 
象 数据 类 型 StudentType 中 ,元 组 的 第 二 个 元 素 本 身 还 是 一 个 抽象 数据 类 型 AddressType 。 
2) 用 户 自 定义 函数 
对 于 ADT, 用 户 自 定义 函数 语法 格式 为 : 
CREATE FUNCTION < func_name > (< argument_1ist>) 
RETURN < type_name > AS (< file_name or SQL repression>); 
用 户 定义 函数 后 就 可 在 相应 抽象 数据 类 型 创建 中 进行 调用 。 在 上 述 语法 格式 中 ,AS 
之 后 是 函数 体 , 可 以 分 为 下 述 两 种 情形 。 
(1) 如 果 函 数 体 是 由 SQL 计算 完备 的 扩展 版 本 编写 ,可 直接 在 AS 后 编写 相应 的 SQL 
语句 。 例 如 ,计算 某 个 教师 与 男 一 个 教师 Wang 的 工资 差 函 数 定义 为 : 
CREATE FUNCTION salary_differ (float) 
RETURN float 
AS SELECT $ sal_salary 
FROM teacher 
WHERE name = 'Wang'; 
(2) 如 果 函 数 体 是 由 某 种 高 级 程序 语言 编写 的 ,在 AS 后 出 现 可 执行 代码 的 文件 名 称 。 
基于 对 象 封装 的 考虑 ,ADT 中 的 属性 和 函数 可 以 分 为 下 述 3 类 。 
(1) PUBLIC: 在 ADT 接口 上 可 见 。 
(2) PRIVATE: 在 ADT 接口 上 不 可 见 。 
(3) PROTECTED: 仅 在 相应 子 类 上 可 见 。 
在 SQL3 标准 中 , 子 类 型 继承 父 类 型 过 程 中 可 在 子 类 中 加 入 新 的 属性 和 操作 , 子 类 还 
可 重新 定义 在 其 超 类 中 已 经 定义 的 任何 函数 ,但 需要 有 相同 的 签名 ,这 也 就 是 对 象 方法 
中 的 函数 “ 重 载 *。ADT 对 于 重 载 的 支持 主要 体现 在 当 其 调用 相同 名 称 函 数 时 ,会 对 函数 
参数 的 个 数 和 类 型 进行 必要 检查 以 确定 最 终 需 要 调用 哪个 函数 。 对 于 函数 而 言 ,此 时 需 


要 注意 以 下 问题 。 
中 如 果 一 个 函数 被 调用 ,最 好 的 匹配 是 基于 所 有 变 元 类 型 的 选择 。 
@ 对 于 动态 连接 ,需要 考虑 运行 时 间 的 类 型 参数 。 
【 例 4-7】 创建 一 个 用 户 自 定义 函数 。 


CREATE TYPE person_ type 
(PUBLIC 
name CHAR(20), 
address CHAR(60), 
sex CHAR(1), 
birthdate DATE DEFAULT now(), 
PUBLIC 
FUNCTION age (birthdate, ‘now'), 
RETUENS INTEGER, 
) 
CREATE FUNCTION age(birthdate, 'now') for person_type 
BEGIN 
< the codes of this funciton > 
END 
CREATE TYPE emp_type UNDER person_ type 
AS (emp_id INTEGER, 
salary REAL, 
FUNCTION Give_raise (abs_or_pct BOOLEAN, amount REAL) 
RETUENS REAL 
) 
INSTANTIABLE 
NOT FINAL 
CREATE FUNCTION Give_raise For emp_type 
BEGIN 
< the codes of this function> 
END 


说 明 : 抽象 数据 类 型 emp_type 是 另 一 个 抽象 数据 类 型 person_type 的 子 类 型 。 除 了 继 
承 person_type 的 属性 和 操作 之 外 ,emp_type 还 有 自身 特有 的 属性 ; INSTANTIABLE 上 声 
明 这 个 类 型 是 实例 化 了 ,NOT FINAL 声明 类 型 可 以 有 子 类 型 ; 最 后 还 定义 了 该 类 型 的 方法 。 

4. 聚集 类 型 

SQL3 通过 ADT 生成 聚集 (数组 和 多 集 ) 数 据 类 型 。 

【 例 4-8〗 创建 一 个 记录 有 关 图 书 的 数据 类 型 。 


CREATE TYPE Pblisher AS 

(name VARCHAR(20), 

branch VARCHAR(20)) 
CREATE TYPE Book AS 

(title VARCHAR(20), 

author array VARCHAR(20)ARRAY[10], 

pub_date DATE, 

pulisher Publisher 

keywords_set VARCHAR(20)MUTILSET) 
CREATE TABLE books OF Book; 
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说 明 : 首先 创建 类 型 Pulisher, 包括 两 个 属性 name 和 branch; 其 次 创建 结构 类 型 
Book, 其 中 ,author_array 是 数组 类 型 (存储 容量 为 10),keywords_set 是 多 集 类 型 ; 最 后 , 定 
义 由 结构 类 型 Book 组 成 个 关系 表 Books。 

【 例 4-9】 创建 上 述 数组 author_array 数据 值 集 : 


ARRAY[ 'John', 'White', 'Black'] 

创建 上 述 多 集 keywords_set 数据 值 集 : 
MULTISET[ 'computer', 'db', 'ordb'] 
创建 行 类 型 Book 的 元 组 如 下 。 


('compilers', array[ 'John', 'White', 'Black'], NEW Publisher( 'Springer', 'Berlin'), MULTISET 

['computer', 'db', 'ordb']) 

说 明 : 上 述 元 组 创建 中 ,通过 适当 参数 调用 Pulisher 的 构造 函数 publisher 创建 了 一 个 
数据 值 。 这 里 Pulisher 的 构造 函数 publisher 需要 被 显 式 创建 ,而 不 能 使 用 默认 值 构造 
击 数 。 

【 例 4-10】 将 上 述 创建 的 元 组 插入 到 关系 表 books 中 。 

INSERT INTO books 

VALUES 

('compilers', array[ 'John', 'White', 'Black'],NEW Publisher('Springer', 'Berlin'), 
MULTISET ['computer', 'db', 'ordb'] ) 

说 明 : 实际 应 用 中 ,可 通过 指定 相应 指针 (如 author_array[1]) 完 成 对 数据 的 访问 和 

修改 。 


5. 引用 类 型 
面向 对 象 程序 语言 提供 了 引用 对 象 的 基本 功能 , 即 一 个 类 型 的 属性 值 可 以 是 对 另 一 个 
对 象 的 引用 。 鉴 于 此 ,SQL3 相应 提供 了 一 种 特殊 数据 类 型 一 一 引用 (参照 ) 数 据 类 型 。 在 


使 用 * 引 用 类 型 "时 ,不 是 引用 对 象 本 身 值 ,而 是 引用 对 象 标识 符 OID。*“ 引 用 ”可 分 为 关于 
“类 型 "和 关于 “元 组 ”的 引用 。 引 用 类 型 是 和 某 个 特定 的 其 他 类 型 相关 联 的 ,其 值 是 相应 
的 OID。 

创建 一 个 类 型 时 ,该 类 型 中 某 个 属性 可 以 是 对 另 一 个 指定 类 型 的 引用 ,如 果 “ 属 性 "是 关 
于 指定 类 型 中 单个 对 象 的 引用 ,此 时 语法 格式 为 : 


属性 名 REF( 类 型 名 ) 
【 例 4-11】 创建 一 个 类 型 Class。 


CREATE TYPE Class AS(name VARCHAR(20), 
monitor REF(Person) SCOPE People 
); 


CREATE TEBLE class of Class; 


说 明 : 例 中 创建 的 类 型 有 属性 name 和 monitor, 而 属性 monitor 引用 person 类 型 。 
REF(Person) 是 对 Person 类 型 中 单个 对 象 的 引用 。 另 外 ,“ 属 性 ”还 可 以 是 对 指定 类 型 中 一 


个 对 象 集合 的 引用 ,此 时 语法 格式 为 : 
属性 名 SETOF(REF( 类 型 名 )) 


这 里 ,语句 中 的 “SETOF” 也 可 以 换 为 “ARRAY” 或 “MULTISET”。 

在 创建 关系 表 时 ,可 以 对 另 一 个 关系 表 中 元 组 进行 引用 ,此 时 需要 指明 被 引用 类 型 的 属 
性 所 在 的 元 组 属于 哪 一 个 对 象 关 系 表 , 即 此 时 需要 对 指向 表 中 元 组 的 引用 范围 (SCOPE) 进 
行 强制 性 限制 ,其 使 用 方式 与 关系 模型 中 的 外 键 类 似 。 限 制 如 果 在 类 型 声明 中 实现 ,其 语法 
格式 为 : 

REF( 类 型 名 ) SCOPE 表 名 

例 4-11 就 是 这 种 情形 。 

【 例 4-12】 定义 一 个 球 队 类 型 的 语句 。 

CREATE ROW TYPE Class AS(name VARCHAR(20), 


team list SETOF(REF(Person)) 
站 


CREATE TEBLE class of Class; 


说 明 : 这 里 属性 team_list 对 类 型 Person 的 引用 就 是 对 Person 对 象 集合 的 引用 。 
限制 也 可 以 在 表 定义 中 实现 ,此 时 ,语法 格式 为 : 


引用 类 型 的 属性 名 WITH OPITIONS SCOPE 表 名 
【 例 4-13】 将 例 4-11 中 定义 语句 改写 如 下 。 


CREATE TYPE Class AS(name VARCHAR(20), 
monitor REF(Person) 


); 
CREATE TABLE classes OF Class (monitor WITH OPTIONS SCOPE people); 
说 明 : 上 述 两 个 创建 语句 中 ,类 型 Class 包含 一 个 name 属性 和 一 个 需要 引用 类 型 
Person 的 monitor 属性 ,而 相应 的 “SCOPE people” 或 “monitor WITH OPTIONS SCOPE 
people” 将 “引用 ”限制 在 表 people 中 的 元 组 。 


4.4.2 继承 性 创建 


通过 前 面 讨论 ,可 以 认为 “类 型 "(特别 是 结构 或 行 类 型 ) 和 “关系 表 ( 类 型 )" 是 对 象 关系 
数据 创建 中 的 “基本 "元素 。 类 型 之 间 最 基本 和 常见 的 语义 关联 就 是 继承 关系 ,关系 表 是 行 
的 集合 ,因此 自然 需要 考虑 类 型 间 及 关系 表 间 的 继承 性 关联 。SQL3 有 两 种 创建 继承 性 的 
方式 , 即 类 型 继承 性 和 表 级 继承 性 。 

1. 类 型 继承 性 

类 型 继承 性 是 指 在 创建 类 型 时 一 并 创建 相关 的 继承 机 制 。 这 与 C++ 等 类 似 ,表现 为 类 
型 与 类 型 之 间 的 继承 ,是 在 数据 模式 的 层面 上 创建 相关 的 继承 性 机 制 。 创 建 了 类 型 继承 性 
后 ,由 类 型 语句 域 约束 而 产生 的 所 有 不 同 关系 表 ( 即 关系 实例 ) 都 具有 相应 的 继承 性 约束 。 
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类 型 之 间 的 继承 性 通过 超 类 型 和 子 类 型 创建 实现 。 
【 例 4-14】 创建 Person .Student 和 Teacher 3 个 类 型 并 表示 相应 的 继承 关系 。 
(1) 创建 “Person” 类 型 。 
CREATE TYPE Person(name VARCHAR(10), 
social number VARCHAR(18) 
); 
如 果 还 需 在 数据 库 中 存储 Student 和 Teacher 信息 ,就 要 创建 Student 和 Teacher 类 
型 。 从 语义 上 讲 , 由 于 Student 类 型 和 Teacher 类 型 应 该 是 Person 的 子 类 型 ,因此 ,可 以 通 
过 继承 性 关系 来 创建 Student 和 Teacher 类 型 。 
(2) 创建 Student 类 型 。 


CREATE TYPE Student UNDER Person( degree VARCHAR(10), 
department VARCHAR(20) 
); 


(3) 创建 Teacher 类 型 。 


CRERTE TYPE Teacher UNDER Person( salary INTEGER, 
department VARCHAR(20) 
); 

说 明 : 上 述 Student 和 Teacher 两 个 类 型 都 继承 了 
Person 类 型 属性 : name 和 social_number, 也 分 别 有 各 Cr 7 
自 的 属性 “degree、department” 和 “salary、 department”。 
因此 ,Student 和 Teacher 都 是 Person 的 子 类 型 ,Person CC swent 77 Creacher 7 
是 Student 和 Teacher 的 超 类 型 。 其 类 型 层次 图 如 图 4-10 
表示 。 图 中 箭头 方向 为 超 类 型 , 箭 尾 方向 为 子 类 型 。 

2. 表 级 继承 性 

表 级 继承 性 是 指 在 创建 类 型 时 可 不 同时 创建 相关 继承 性 机 制 , 而 在 创建 了 关系 表 即 行 
数据 集合 时 才 针 对 其 他 已 有 的 关系 表 而 “滞后 "创建 相应 继承 性 机 制 。 这 是 在 关系 实例 层面 
的 继承 ,不 同 于 类 型 继承 情形 ,同一 类 型 产生 的 不 同 关系 表 有 的 可 以 有 继承 机 制 ,有 的 可 以 
没有 ,就 是 有 继承 机 制 的 多 个 关系 ,也 可 以 具有 不 同 的 继承 机 制 , 尽 管 它们 都 是 源 自 同 一 个 
类 型 约束 。 从 某 种 意义 而 言 , 相 对 于 类 型 继承 性 ,在 实际 应 用 过 程 中 , 表 级 继承 性 可 能 具有 
更 多 的 灵活 性 与 便利 性 。 

对 象 关 系 通过 子 表 / 超 表 在 表 级 实现 继承 性 。 表 级 继承 性 允许 将 所 涉及 的 关系 组 成 一 
个 类 型 层次 ,这 是 一 个 有 根 无 环 的 有 向 图 ,此 时 , 子 结 点 可 以 从 一 个 或 多 个 父 结 点 中 继承 属 
性 和 函数 。 

1) 子 表 与 超 表 

在 例 4-14 中 ,定义 了 Person 类 型 之 后 定义 关系 people, 其 格式 为 : 


图 4-10 类 型 级 继承 


CREATE TABLE people OF Person; 


然后 分 别 创建 类 型 Student 和 Teacher, 其 格式 为 : 


CREATE TYPE Student(degree VARCHAR(10), 
department VARCHAR(20) 
); 


CREATE TYPE Teacher( salary INTEGER, 
department VARCHAR( 20) 
); 


再 用 继承 性 创建 students 和 teachers 作为 people 的 继承 表 , 其 格式 为 : 


CREATE TABLE students OF Student UNDER people; 
CREATE TABLE teachers OF Teacher UNDER people; 


说 明 : people 称 为 超 表 , students 和 teachers 称 为 子 
表 , 子 表 students 和 teachers 继承 了 超 表 people 的 全 部 属 
性 ,其 表 级 继承 层次 图 如 图 4-11 所 示 。 

2) 约束 条 件 students teachers 

由 于 定义 在 表 级 层面 , 相 比 于 类 型 层面 就 具有 了 更 多 的 2 2 
约束 性 条 件 ,呈现 出 相对 复杂 的 情形 ,因此 表 级 继承 性 需要 站 
考虑 必要 的 约束 限制 。 

超 表 和 子 表 需 要 满足 下 述 约 束 性 (一 致 性 ) 条 件 。 

(1) 超 表 中 每 个 元 组 需要 并 且 最 多 只 能 与 每 个 子 表 中 的 一 个 元 组 对 应 。 

例如 , 超 表 people 中 每 个 人 可 以 是 一 个 student, 也 可 以 是 一 个 teacher, 可 以 既是 一 个 
student 又 是 一 个 teacher, 也 可 以 既 不 是 一 个 student 也 不 是 一 个 teacher。 

(2) 子 表 中 的 每 个 元 组 在 超 表 中 恰 有 一 个 元 组 与 之 对 应 ,并 且 在 继承 属性 上 有 相同 
的 值 。 

在 上 述 例子 中 ,如 果 * 子 表 中 的 每 个 元 组 在 超 表 中 惟有 一 个 元 组 与 之 对 应 "不成立 , 则 
students 表 中 就 有 可 能 有 两 个 学 生 对 应 people 表 中 同一 个 人 ; 如 果 “ 在 继承 的 属性 上 有 相 
同 的 值 ? 不 成 立 ,students 表 中 就 有 可 能 在 people 表 中 没有 相对 应 的 人 。 所 有 这 些 都 与 实 
际 情况 不 符 , 因 此 必须 避免 。 

3) 表 级 继承 的 意义 

表 级 继承 可 以 采取 有 效 的 方法 存储 子 表 。 在 子 表 中 不 必 存 放 继 承 得 到 的 属性 ( 超 表 中 
主键 除外 ) ,这 些 属性 值 可 以 通过 基于 主键 的 连接 从 超 表 中 导出 。 有 了 表 级 继承 性 概念 ,对 
象 关 系数 据 模式 定义 将 会 更 加 符合 实际 ,这 是 因为 在 没有 表 级 继承 的 情况 下 ,模式 设计 者 需 
要 通过 主键 把 子 表 对 应 的 表 和 超 表 对 应 的 表 联 系 起 来 ,还 需 定义 表 之 间 的 参照 完整 性 约束 
条 件 。 在 表 级 继承 性 情况 下 ,可 以 将 在 超 表 上 定义 的 属性 和 性 质 用 到 子 表 中 的 对 象 上 ,从 而 
可 以 逐步 对 DBS 进行 扩充 以 包含 新 的 类 型 。 


4.4.3 关系 表 创 建 


关系 数据 模型 中 元 组 是 基本 元 素 , 关 系 表 看 作 同 型 元 组 集合 ; 对 象 关 系 模型 中 关系 仍 
然 是 核心 概念 ,但 其 基本 元 素 是 对 象 类 型 ,这 里 对 象 类 型 包括 行 类 型 (结构 类 型 ) 和 ADT， 
“关系 ” 表 看 作 是 对 象 类 型 的 集合 。 
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1. 关系 表 

如 前 所 述 ,在 数学 中 将 “集合 ”与 “元 素 ”( 等 价 于 由 该 单元 素 构成 的 集合 ) 两 个 不 同 抽 
象 层 面 上 的 概念 在 同一 抽象 层面 “有 意 混用 ”, 而 在 ORDM 中 ,也 可 将 “关系 ”( 行 类 型 数 
据 的 集合 ) 和 “ 行 ”( 等 价 于 有 该 行 数据 构成 的 集合 ) 在 同一 层面 有 意 混用 ,因此 就 有 关系 
类 型 之 说 。 实 际 上 ,在 SQL3 中 ,关键 词 *TYPE” 就 有 意 混淆 地 用 来 指称 “ 行 类 型 数据 "或 
“关系 类 型 数据 ”。 以 下 就 按照 这 种 考量 讨论 创建 关系 表 ( 关 系 类 型 数据 ) 的 两 种 基本 
方式 。 

(1) 基于 关系 类 型 创建 。 基 于 关系 类 型 创建 即 先 定 义 关系 模式 (关系 类 型 ) 再 定义 相应 
关系 实例 (关系 类 型 数据 ) ,此 时 按照 * 类 型 外 定义 行 类 型 "和 “类 型 内 定义 行 类 型 " 细 分 为 以 
下 两 种 情形 。 

名 关系 类 型 外 定义 行 类 型 : 在 创建 的 关系 类 型 范围 之 外 定义 其 中 涉及 的 行 类 型 ,此 时 
类 型 内 外 行 类 型 名 称 必须 一 致 。 当 行 类 型 比较 复杂 性 时 ,采用 此 方式 可 以 使 得 描述 更 加 清 
晰 , 校 验 更 为 便利 。 这 与 C++ 在 类 定义 之 外 具体 定义 其 成 员 函 数 相 似 。 

@ 关系 类 型 内 定义 行 类 型 : 在 创建 的 关系 类 型 范围 内 定义 其 中 涉及 的 行 类 型 ,此 时 ， 
对 采用 无 名 称 行 类 型 定义 的 方式 ( 见 例 4-15) ,这 通常 用 于 行 类 型 相对 简单 或 所 涉及 行 类 型 
数量 较 少 的 情形 。 

从 本 质 上 而 言 ,此 时 关系 表 创建 都 类 似 于 RDB 情形 。 

(2) 按照 行 类 型 创建 。 按 照 行 类 型 创建 即 先 定义 行 类 型 ,再 将 关系 类 型 定义 为 此 行 类 
型 数据 的 集合 。 

此 种 方式 是 RDB 中 所 不 具有 的 。 

上 述 关系 类 型 的 创建 方式 如 图 4-12 所 示 。 


关系 表 (关系 类 型 数据 ) 创 建 
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类 开外 定义 行 类 型 | 类 型 内 定义 行 类 型 先 创建 行 类 型 

- 再 将 关系 类 型 定义 为 行 
类 型 外 使 用 有 名 称 。 类 型 内 使 用 无 名 称 类 型 数据 的 集合 

行 类 型 定义 行 类 型 定义 


图 4-12 创建 对 象 关系 表 方 式 
【 例 4-15】 按照 上 述 3 种 方式 分 别 创建 大 学 与 教师 的 对 象 关系 表 universities (uno， 


unname,city, staff(fno,fname,age)).。 
1) 基于 关系 类 型 创建 (类 型 外 定义 行 类 型 ) 
@ 先 创建 “ 行 (结构 )” 类 型 Faculty, 其 格式 为 : 
CREATE TYPE Faculty (fno VARCHAR(10) 


fname VARCHAR (20), 
age INTEGER); 


@ 再 创建 “( 嵌 套 ) 行 类 型 University, 其 格式 为 : 


CREATE TYPE University RS (uno VARCHAR (10), 
uname VARCHAR (20), 
city VARCHAR (20), 

staff SETOF (Faculty) 

); 


@ 最 后 将 关系 表 universities 定义 为 行 类 型 University 的 集合 ,其 格式 为 ; 
CREATE TABLE universities OF University; 
2) 基于 关系 类 型 创建 (通过 无 名 称 行 关系 类 型 内 定义 行 类 型 ) 


CREATE TABLE university (uno varchar(10), 
uname VARCHAR (20), 
city VARCHAR (20), 
staff ROW (fno VARCHAR (10) 
fname VARCHAR (20), 
age INTEGER 
) 


3) 基于 行 类 型 创建 

Oa 先 创 建 结构 类 型 Faculty, 其 格式 为 : 

CREATE TYPE Faculty (fno VARCHAR (10), 
fname VARCHAR (20), 


age INTEGER 
); 


@ 青 创建 对 象 关系 universities, 其 格式 为 : 


CREATE TABLE universities (uno VARCHAR (10), 
uname VARCHAR (20), 
city VARCHAR (20), 
staff SETOF (Faculty) 
); 

在 ORDB 中 ,通常 行 类 型 都 比较 复杂 ,采用 直接 创建 关系 类 型 的 方式 在 某 些 情况 下 就 
难以 清楚 描述 对 象 关系 表 的 实际 构造 ,一 般 多 采用 间接 创建 关系 表 即 “基于 行 类 型 创建 "的 
方式 ,这 实际 上 是 “由 里 向 外 ”和 “由 组 成 部 分 到 整体 ”的 逐 层 推进 定义 。 

【 例 4-16】 设 有 一 个 学 生 选 课 及 成 绩 的 嵌 套 关系 SC(name,cg(course,grade, date))， 
其 中 属性 name、course、grade 和 date 分 别 表示 学 生 姓 名 课程 名 成 绩 和 日 期 。 

QO 采用 基于 元 组 方式 创建 对 象 关系 表 sc, 其 格式 为 : 

CREATE TYPE CourseGrade (course VARCHAR(20), 

grade INTEGER, 


date DATE 
); 


CREATE TYPE StudentGrade AS SETOF(CourseGrade); 
CREATE TYPE StudentCourseGrade AS (name VARCHAR(10), 
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cg StudentGrade 
); 


@ 在 上 述 基础 上 再 定义 关系 sc, 其 格式 为 : 
CREATE TABLEsc OF StudentCourseGrade; 


2. 综合 实例 
下 面 讨论 一 个 按照 行 类 型 创建 ORDB 模式 的 综合 实例 。 
【 例 4-17】 定义 如 图 4-7 所 示 的 对 象 联系 图 所 表示 的 数据 库 。 


CREATE TYPE Person AS(social munber VARCHAR (18), 
name VARCHAR(10), 
age INTEGER 
); 


CREATE TYPE University RS (uno VARCHAR (10), 
uname VARCHAR(20), 
city VARCHAR (20), 
president REF (Faculty), 
staff SETOF (REF (Faculty)), 
edit SETOF (REF (Coursetext)) 
); 


CREATE TYPE Faculty UNDER (Person) AS 
(fno VARCHAR (10), 
fname VARCHAR (20), 
age INTEGER, 
salary INTEGER, 
work_for REF (University), 
teach SETOF (REF (Coursetext)) 
); 


CREATE TYPE Coursetext AS (cname VARCHAR (20), 
textname VARCHAR (20), 
teacher REF (Faculty) 
editor REF (University) 

); 


CREATE TABLE people OF Person; 


CREATE TABLE faculties OF Faculty 
(works_for WITH OPINIONS SCOPE universities, 
teach WITH OPINIONS SCOPE coursetexts 
); 


CREATE TABLE universities OF Faculty, 

(president WITH OPINIONS SCOPE faculties, 
staff WITH OPINIONS SCOPE faculties, 
edit WITH OPINIONS SCOPE coursetexts 

); 


CREATE TABLE courstexts OF Coursetext 
(teather WITH OPINIONS SCOPE faculties, 
editor WITH OPINIONS SCOPE universities 
); 

说 明 : 需要 特别 指出 ,类 型 “universities” 中 的 REF (Faculty) 和 SETOF (REF 
(Faculty)) 中 保留 词 REF 是 不 可 省 的 。 如 果 没 有 REF 关键 词 “faculties” 和 ”universities” 
这 两 个 表 就 是 递归 谱 套 ,在 系统 中 不 可 实现 。 有 了 REF 关键 词 后 ,相互 引用 的 是 关系 中 元 
组 的 标识 符 (元 组 地 址 ) ,如 此 就 能 实现 递归 结构 。 本 例 说 明 的 是 通过 “引用 ”机 制 避免 循环 
谋 套 问题 ,在 学 习 中 值得 注意 。 


4.5 对 象 关 系数 据 操作 


使 用 SQL3 中 的 相应 请 句 可 实现 对 象 关 系数 据 查询 与 更 新 操作 。 事 实 上 , 对 传统 
SELECT 语句 加 以 适当 修改 就 能 处 理 带 有 行 类 型 和 引用 类 型 的 对 象 关系 数据 查询 。 对 于 
数据 更 新 也 是 如 此 。 此 外 ,在 查询 语句 中 ,允许 用 于 计算 关系 的 表达 式 出 现在 任何 关系 名 可 
以 出 现 的 地 方 , 例 如 ,FROM 子 句 或 SELECT 子 句 中 ,这 种 可 以 自由 使 用 子 表达 式 的 能 力 
使 得 充分 利用 嵌 套 关系 结构 成 为 可 能 。 


4.5.1 数据 查询 


下 面 以 图 4-7 所 示 的 对 象 联系 图 和 例 4-17 中 定义 的 ORDB 为 例 , 介 绍 SQL3 中 相关 数 
据 操作 语句 的 基本 使 用 。 

1. 行 变量 

在 一 个 对 象 关系 表 中 ,需要 将 其 中 数据 元 素 一 一 行 (元 组 ) 看 作 单独 对 象 ,而 不 看 作 是 以 
表 中 的 属性 作为 成 员 的 列表 ,因此 SQL3 是 以 关系 表 中 “ 行 (元 组 )" 为 操作 变量 。 如 前 所 述 ， 
SQL3 中 ,通常 都 是 有 意 混用 “关系 ”与 “ 行 "概念 的 ,因此 可 以 认为 ,在 传统 SQL 当中 ,查询 
语句 里 实际 上 是 “自然 "和 “ 隐 式 "地 将 被 操作 的 关系 表 看 作 是 “ 行 变量 ”, 并 将 这 种 行 变量 直 
接 与 属性 名 联 用 以 求 出 属性 值 ,但 这 种 机 制 在 ORDB 中 却 难以 实施 ,主要 原因 在 于 ORDB 
存在 嵌 套 情况 ,同时 属性 值 具有 复杂 数据 类 型 ,简单 地 和 隐 式 地 将 需要 操作 的 关系 表 当 作 变 
量 进行 求 值 可 能 会 带 来 语义 上 的 混乱 。 所 以 ,在 ORDB 中 必须 为 每 个 操作 (关系 ) 表 显 式 地 
设置 一 个 “ 行 变 量 ”, 然 后 才 可 进行 有 关 数 据 操作 。 在 需要 深入 到 行 ( 对 象 ) 内 部 获取 嵌 套 情 
况 下 的 有 关 属 性 值 信息 时 ,可 由 观察 器 函数 使 用 所 设置 的 行 变量 完成 相应 查询 。 

【 例 4-18】 在 例 4-17 的 ORDB 中 ,查询 讲授 DBS 课程 中 采用 An Introduction to 
Database System 教材 的 教师 工 号 和 姓名 。 

SELECT F. no, F. fname 

FROM faculties ASF 

WHERE( 'DBS', 'An Introduction to Database System') IN F. teach; 

说 明 : 为 对 象 faculties 设置 行 变量 F,. 然 后 分 别 使 用 观察 器 函数 F. no, F. fname 和 下 . 
teach。 这 里 实际 上 省 略 了 观察 器 函数 后 面 的 “()”, 如 下 .no 实际 上 是 F. no() 等 。 
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【 例 4-19】 查询 每 一 位 教师 开设 的 课程 。 

SELECT F. no, C. cname 

FROM faculties RS F,F. teach RS C; 

说 明 : 这 将 新 的 行 F. teach 设 为 变量 C。 

【 例 4-20】 查询 广州 地 区 各 大 学 超过 45 岁 的 教师 人 数 ,其 格式 为 : 

SELECT U. uname, count(SELECT * 

FROM U. staff RS 了 
WHERE F.age> 45) 

FROM universities AS U 

WHERE U. city = 'guangzhou'; 

2. 路 径 表 达 式 

对 象 关 系数 据 中 的 做 套 带 来 数据 结构 的 复杂 性 。 与 RDB 不 同 ,ORDB 为 实现 有 效 查 
询 ,需要 考虑 查询 的 路 径 表 达 式 。 从 已 知 属性 值 出 发 搜索 未 知 属性 值 时 经 过 的 属性 名 称 构 
成 的 表达 式 就 是 路 径 表 达 式 。 路 径 表达 式 可 以 分 为 下 述 3 种 情形 。 

1) 属性 值 为 原子 值 或 结构 ( 行 ) 值 

当 所 涉及 的 属性 值 均 为 原子 值 或 结构 ( 行 ) 值 时 ,观察 器 函数 T. AO) 中 属性 引用 方式 如 
同 常规 情形 那样 ,直接 在 数据 对 象 和 相应 属性 的 层次 之 间 添 加 圆 点 “. "来 表示 路 径 层次 。 

【 例 4-21】 在 例 4-17 的 ORDB 中 ,查询 广州 地 区 的 大 学 校长 姓名 。 

SELECT U. uname, U. president. fname 

FROM universities ASU 

WHERE U. city = 'guangzhou'; 

说 明 : 当 属 性 值 为 单个 值 时 ,只 有 一 个 层次 点 ,而 当 属 性 值 为 结构 ( 行 ) 值 时 ,层次 点 可 
以 逐次 延展 下 去 。 本 例 中 ,为 关系 表 universities 设置 行 变 量 品 ,观察 器 函数 U. president 的 
返回 值 仍然 是 结构 值 一 一 行 ,因此 校长 姓名 可 用 U. president. fname 表示 。 

这 种 由 层次 点 组 成 , 形 如 U. president. fname 的 表达 式 就 是 SQL3 中 的 “路 径 表 达 式 ”。 

2) 属性 值 为 聚集 值 

当 查 询 过 程 中 存在 某 个 属性 值 为 聚集 值 时 ,查询 路 径 表 达 式 就 不 能 接连 写 下 去 ,此 时 需 
要 再 设置 一 个 新 的 观察 器 函数 。 例 如 ,在 某 大 学 里 查询 教师 姓名 ,不 能 写成 U. staff. fname， 
因为 属性 staff 通常 取 多 集 值 而 非 原子 值 或 行 值 ,否则 ,此 时 路 径 表达 式 就 无 意义 ,需要 为 
staff 另外 定义 一 个 行 变量 以 涉及 一 个 新 的 查询 路 径 。 

在 例 4-17 中 ,为 表 universities 设置 元 组 变量 为 U, 而 其 分 量 U. staff 是 一 个 表 ( 集 合 
值 ) ,需要 再 为 其 设置 为 一 个 行 变 量 *F. ”。 

【 例 4-22】 查询 使 用 中 山大 学 编写 教材 的 教师 工 号 、 姓 名 和 学 校 。 

SELECT U. uname, F. fno, F. fname 


FROM university AS U, U. staff ASF, F.teachASC 
WHERE C. editor. uname = 'Sun Yat ~ Sen University'; 


【 例 4-23】 例 4-22 中 的 查询 也 可 以 用 如 下 表达 形式 。 


SELECT F. works_for. uname, F. fno,F,fname 


FROM faculties RS FE，F.teach RMS C 
WHERE F. works_for. uname = 'Sun Yat ~ Sen University'; 


3) 属性 值 为 引用 值 

当 需 要 查询 属性 值 为 引用 类 型 时 .需要 表明 该 属性 值 的 引用 身份 。 

【 例 4-24】 查询 Springer 出 版 社 出 版 的 图 书 名 称 。 

SELECT bookname 

FROM books 

WHERE pulisher_REF. public name = 'Springer'; 

说 明 : publisher 的 数据 类 型 是 引用 类 型 ,需要 用 路 径 表 达 式 来 表示 引用 对 象 的 属性 ， 
如 用 pulisher_REF. public_name 表示 pulisher 中 的 属性 public_name。 

【 例 4-25】 查询 书 名 为 advanced database 的 出 版 社 。 

SELECT defer(pulisher REF) 


FROM books 
WHERE bookname = 'advanced database '; 


说 明 : book 中 属性 pulisher_REF 是 引用 类 型 ,而 引用 类 型 的 值 实际 上 是 一 个 对 象 标识 
符 OID。 在 上 述 语 名 中, 如果 在 SELECT 后 直接 写 pulisher_REF, 则 查询 结果 返回 一 组 
OID 的 值 ,为 了 得 到 OID 所 表示 的 数据 实例 ,使 用 函数 defer() 返 回 参 数 所 表示 数据 的 具 
体 值 。 
3. 基于 继承 的 数据 查询 
SQL3 提供 了 在 继承 层面 上 的 数据 查询 。 也 就 是 说 ,在 具有 继承 出 现 的 场景 中 ,可 以 只 
从 其 中 一 个 关系 中 查询 数据 ,也 可 以 从 该 表 和 它 的 所 有 子 表 中 查询 数据 ,这 就 带 来 了 较 大 灵 
活性 。 实 际 上 ,SQL 对 此 提供 了 以 下 3 种 不 同 的 查询 语句 。 以 下 以 实例 说 明 这 些 查询 
方式 。 
设 有 如 下 3 个 对 象 关系 类 型 数据 : 
CREATE TYPE Person(name VARCHAR(10), 
social_number VARCHAR(18) 
); 
CREATE TYPE Student UNDER Person(degree VARCHAR(10), 
department VARCHAR(20) 
); 
CREATE TYPE Teacher UNDER Person( salary INTEGER, 
department VARCHAR(20) 
); 
此 时 ,Student 和 Teacher 都 是 超 类 Person 的 子 类 。 
1) 只 查询 超 类 数据 
使 用 如 下 语句 可 只 查询 超 类 Person 中 的 数据 。 
SELECT * 
FROM ONLY Person; 


此 时 ,查询 结果 仅 为 关系 Person 中 的 所 有 行 类 型 数据 。 
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2) 查询 超 类 和 所 有 子 类 相关 数据 

使 用 如 下 语句 可 查询 超 类 Person 和 子 类 Student 及 Teacher 中 继承 于 Person 的 数据 。 

SELECT * 

FROM Person; 

此 时 ,查询 结果 为 关系 Person 及 子 关系 Student 和 Teacher 中 继承 于 Person 的 数据 。 
其 中 ,Person 中 行 类 型 结构 为 “name, social_number”; Student 中 行 类 型 结构 为 “name， 
social_number, degree, department”; Teacher 中 行 类 型 结构 为 “name, social _number， 
salary, department” 。 

对 于 子 关系 Student 和 Teacher 而 言 ,执行 此 查询 语句 的 结果 数据 都 只 有 前 两 个 数据 
项 “name,social_number”, 从 而 与 Person 关系 得 到 的 查询 结果 具有 相同 的 数据 结构 。 

3) 查询 超 类 和 子 类 所 有 完整 数据 

使 用 如 下 语句 可 查询 超 类 Person 和 子 类 Student 及 Teacher 中 的 所 有 数据 与 继承 
Person 数据 所 有 相关 的 数据 。 


SELECT Person 
FROM Person; 


此 时 , 子 关系 Student 和 Teacher 中 的 查询 结果 都 具有 自身 的 行 数据 结构 ,整体 输出 结 
果 为 具有 不 同 格式 结构 的 3 个 行 类 型 数据 集合 。 


4.5.2 关系 与 对 象 关 系 转换 


数据 查询 本 质 上 可 以 看 作 是 将 一 种 合法 的 数据 表达 式 转 换 为 男 一 种 合法 的 数据 表达 
式 。ORDB 应 当 包 含 和 兼容 RDB, 因 此 需要 通过 对 象 关系 数据 的 查询 实现 同一 客观 实体 的 
关系 形式 与 对 象 关系 形式 之 间 相 互 转换 。 

关系 具有 原子 性 ,对 象 关 系 具 有 艇 套 性 ,由 关系 转换 为 对 象 关 系 通常 称 之 为 “施加 非 
1NF” 或 “施加 组 套 ”(nesting); 由 对 象 关系 转换 为 关系 称 之 为 “解除 非 INF? 或 “解除 嵌 套 ” 
(Cunnesting) 。 在 使 用 SELECT 语句 时 ,可 以 要 求 查询 结果 以 1NF 形式 输出 ,也 可 以 要 求 查 
询 结果 以 非 1NF 形式 输出 。 

【 例 4-26】 一 个 基于 对 象 关系 的 图 书 关系 表 books 如 表 4-1 所 示 , 其 中 author_array 
和 keyword_set 是 聚集 类 型 属性 。 


表 4-1 图 书 数据 表 ( 非 INF) 




















title author_array publisher(pub-name, pub-branch) keyword_set 
XML (John White) (McGraw_Hill, New York) (XPath, XQuery) 
DB (White, Smith) (Springer, Berlin) (Model, Form) 


如 果 需 将 该 对 象 关系 转换 为 一 个 满足 1NF 的 平面 关系 flat_books, 可 使 用 下 述 语句 ， 


SELECT title, A.author, publisher. name AS pub— name, 
publisherbranch RS pub_branch, K.keyword 
FROM books AS B, unnest (B.author array) RS A (author), 
unnest (B. keyword_set) RS K (keyword); 


说 明 : 上 述 语 句 中 ,FROM 子 句 中 变量 也 被 声明 为 以 books 为 取 值 范围 ,变量 A 被 声 
明 为 以 也 的 author_array 中 author 为 取 值 范围 。 同 时 ,K 被 声明 为 以 B 中 keyword_set 关 
键 字 为 取 值 范围 。 
转换 后 的 平面 关系 表 如 表 4-2 所 示 。 
图 4-2 平面 关系 表 flat_books 






































title author pub_name pub_branch keywords 
XML John McGraw_Hill New York XPath 
XML White McGraw_Hill New York XPath 
XML John McGraw_Hill New York XQuery 
XML White McGraw_Hill New York XQuery 
DB White Springer Berlin Data Model 
DB Smith Springer Berlin Data Model 
DB White Springer Berlin Normal Form 
DB Smith Springer Berlin Normal Form 


【 例 4-27】 将 上 述 平面 关系 表 flat_books 转换 为 嵌 套 关系 表 。 


SELECT tilte, auther, Pulisher(pub_name, pub_branch) AS pulisher, 
COLLECT (keywords) RS keyword_ set 

FORM flat_books 

GROUP BY title, auther, publisher, keyword set; 


执行 后 得 到 如 表 4-3 所 示 的 输出 结果 ,这 是 一 个 非 INF 关系 结构 。 
表 4-3 非 INF 关系 表 














title author publisher(pub-name, pub-branch) keyword_set 
XML John (McGraw_Hill, New York) (XPath, XQuery) 
XML White McGraw_Hill, New York (XPath, XQuery) 
DB White (Springer, Berlin) (Model, Form) 
DB Smith (Springer, Berlin) (Model, Form) 











说 明 : 上 述 转换 为 非 1NF 的 过 程 通过 对 SQL 分 组 机 制 的 一 个 扩充 来 完成 。 在 SQL 分 
组 机 制 的 常规 使 用 中 ,需要 对 每 个 组 ( 远 辑 上 ) 创 建 一 个 临时 的 多 集 关系 , 然 后 在 这 个 临时 关 
系 上 应 用 一 个 聚集 函数 。 如 果 不 应 用 聚集 函数 而 只 返回 这 个 多 重 集合 ,比较 容易 地 完成 谋 
套 转 换 , 创 建 一 个 谋 套 关系 。 
【 例 4-28】 在 前 例 中 ,如 果 还 需要 将 属性 嵌 套 到 多 集 当 中 ,可 以 执行 如 下 语句 : 
SELECT title, COLLECT(author) RS auther_set 
Pulisher(pub_name, pub_branch),COLLECT (keyword) AS keyword set 


FROM flat_ books 
GROUP BY title, auther_set, publisher, keyword set; 


此 语句 的 查询 结果 就 将 平面 关系 表 flat_books 转换 为 前 述 的 姐 套 关系 表 books。 
说 明 : 还 可 以 通过 查询 语句 谈 套 (使 用 子 查询 ) 来 实现 1NF 到 非 1NF 的 转换 。 这 种 基 
于 查询 庶 套 的 方法 可 以 选择 使 用 ORDER BY 子 句 将 查询 结果 按照 需要 顺序 排列 ,从 而 可 
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以 用 于 创建 数组 。 


SELECT title, 
ARRAY (SELECT author 
FROM authors RS A 
WHERE RA.title = B.title 
ORDER by A. position) AS author array 
Pulisher(pub_name, pub_branch) AS publisher 
MULTISET (SELECT keyword 
FROM keywords RS K 
WHERE K. tilte = B.title) RS kerword set, 
FROM books AS B; 


上 述 语句 中 ,关键 字 ARRAY 和 MULTISET 说 明 数 组 和 多 集 分 别 应 用 于 查询 结构 创建 。 
4.5.3 对 象 关 系数 据 更 新 

复杂 类 型 数据 可 以 进行 任意 层次 上 的 嵌 套 ,由 此 就 使 得 对 象 关 系数 据 更 新 与 常规 关系 
数据 中 情形 有 所 不 同 。 

【 例 4-29】 设 在 对 象 关系 sc(name,cg(course,grade,date)) 中 某 行 具 下 列 形式 : 

('Mary', SETOF ('MATHS', 95, (1, 'July', 2005)), ('DB',100, (1, 'January', 2006)))); 

其 中 ,为 复杂 数据 类 型 的 属性 date 创建 值 的 方法 是 将 其 各 个 属性 (日 月、 年) 在 圆 括号 
内 列 出 ; 为 集合 类 型 的 属性 cg 创建 值 的 方法 是 在 圆 括号 中 列举 其 中 元 素 并 在 圆 括号 前 面 
加 关键 字 SETOF。 

当 需 要 将 上 面 的 元 组 插入 到 关系 sc 中 ,可 用 下 面 语句 实现 : 


INSERT INTO sc 
VALUES ( 'Mary' SETOF ('MSTHS', 95, (1, 'JULY', 2005)), ('DB',100, (1, 'January', 2006)))); 


【 例 4-30】 删除 在 例 4-29 中 插入 的 数据 对 象 。 
DELETE FROM SC WHERE name = 'Mary’ 


说 明 : 执行 此 语句 后 ,SC 中 Mary 的 记录 全 被 删除 ,但 其 OID 不 能 重用 。 
【 例 4-31】 修改 Mary 的 DB 成 绩 为 98 分 。 


UPDATE sc 

SET cg. grade = '98" 

WHERE name = 'Mary'and cg. coures = 'DB'; 

说 明 : 修改 后 sc 中 相应 的 OID 不 变 。 

也 可 以 用 通常 的 UPDATE 语句 完成 复合 对 象 关系 的 更 新 ,这 与 1NF 关系 的 更 新 非常 类 似 。 


本 章 小 结 


对 象 数据 库 是 新 一 代 ( 第 三 代 ) 数 据 库 的 典型 代表 。 如 果 以 传统 RDB 和 关系 查询 语言 
SQL 为 基础 ,扩充 关系 数据 模型 到 对 象 关 系数 据 模型 ,就 可 建立 ORDB 系统 ; 如 果 以 面向 


对 象 程序 设计 语言 为 基础 ,允许 直接 在 面向 对 象 程序 设计 语言 中 使 用 该 语言 原 有 类 型 访问 
数据 库 中 的 数据 ,就 可 建立 OODB 系统 。 

1) ORDB 本 质 上 是 关系 结构 

从 逻辑 上 考虑 ,ORDB 并 不 是 严格 意义 下 的 对 象 数据 库 , 这 是 因为 它 仍 然 采 用 关系 数 
据 模型 ,其 关键 点 是 扩充 了 RDB 中 的 数据 类 型 ,同时 引进 了 类 型 的 继承 机 制 ,但 其 基础 的 数 
据 单 元 仍然 是 “元 组 ”( 其 中 属性 可 以 取 值 为 复杂 类 型 数据 和 大 对 象 数 据 ,并 且 可 以 进行 巾 套 
表示 ) 和 “关系 表 ”( 解 除了 1NF 限制 并 在 逻辑 和 技术 上 打通 关系 表 与 行 类 型 的 等 价 联系 )。 

但 从 技术 实现 上 来 看 ,其 相应 模型 SQL3 标准 已 经 收入 了 相当 多 的 面向 对 象 内 容 ,为 适 
应 对 象 概念 提供 一 个 高 级 接口 ,从 而 打通 从 关系 的 “抽象 世界 ”到 面向 对 象 的 “真实 世界 ”的 
一 条 前 景 广阔 的 路 途 。 

(1) 扩充 传统 关系 数据 类 型 。 将 传统 关系 数据 类 型 扩充 到 行 类 型 和 聚集 类 型 ,由 此 就 
自然 引入 扩展 数据 类 型 对 象 间 新 的 关系 一 一 嵌 套 关系 和 引用 关系 ; 由 于 引用 关系 等 因素 考 
量 , 还 可 以 对 基本 对 象 赋予 对 象 标识 。 

(2) 引入 基本 对 象 类 型 。SQL3 通过 引入 复杂 数据 类 型 解决 了 RDB 中 类 型 简单 不 足以 适 
应 新 的 数据 管理 需求 的 问题 ,但 这 些 复杂 类 型 可 能 需要 适合 于 自身 计算 的 特定 函数 并 且 实 现 
技术 封装 ,由 此 还 需要 引入 ADT。ADT 类 型 提供 了 必要 的 数据 操作 机 制 ,同时 还 可 以 由 
SQL3 提供 的 类 型 构造 器 生成 更 为 复杂 的 用 户 类 型 ,因此 ,ADT 类 似 于 面向 对 象 方法 中 “类 ” 概 
念 。 需 要 注意 的 是 ,按照 SQL3 标准 ,只 将 行 数据 类 型 和 抽象 数据 类 型 看 作对 象 类 型 (类 ), 而 
内 置 数据 类 型 .聚集 和 引用 数据 类 型 通常 只 看 作 是 基本 数据 类 型 ,类 型 是 简单 的 基本 类 。 

SQL3 中 数据 基本 数据 类 型 和 对 象 类 型 如 图 4-13 所 示 。 

对 象 关系 数据 类 型 


行 (结构 ) 类 型 











内 置 数据 类 型 | 聚集 数据 类 型 | 引用 数据 类 型 | 


4-13 ”SQL3 中 数据 类 型 与 对 象 类 型 


(3) 类 型 继承 和 子 表 继承 。 借 鉴 面向 对 象 方法 中 的 对 象 和 类 型 概念 ,引入 类 型 之 间 的 
继承 关系 ,解决 了 类 的 细 化 与 泛 化 问题 。 

(4) 元 组 变量 与 查询 路 径 。 在 SQL3 中 ,查询 具有 两 个 显著 特点 : 一 是 查询 子 句 可 以 内 
套 在 SELECT 语句 中 任何 可 使 用 关系 名 称 的 地 方 ; 二 是 数据 操作 的 基本 单元 是 元 组 。 因 
此 ,需要 每 个 关系 表 设 置 一 个 元 组 变量 。 如 果 需 要 查询 元 组 中 的 属性 值 , 则 需要 调用 内 置 函 
数 一 一 观察 器 函数 。 由 于 嵌 套 的 原因 , 当 属 性 值 为 原子 值 或 结构 值 ( 元 组 值 ) 时 ,可 将 层次 点 
逐次 写 下 去 ,形成 查询 路 径 ; 当 属性 为 集合 值 时 ,就 需要 再 设置 元 组 变量 ,进而 再 调用 观察 
器 函数 。 
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2) ORDB 的 实现 

作为 RDB 的 面向 对 象 扩 充 , 现 有 ORDB 大 多 都 是 对 已 有 RDB 进行 技术 层面 上 的 扩 
展 。 为 了 使 对 存储 系统 中 关系 存储 和 索引 等 的 改动 最 小 化 ,通常 是 将 ORDB 的 复杂 数据 类 
型 转化 为 RDB 的 简单 数据 类 型 。 由 于 E-R 模型 中 的 情形 在 ORDM 中 基本 得 到 完全 实现 ， 
因此 这 种 转换 可 以 借鉴 E-R 模型 到 关系 模型 转换 而 进行 开 








发 设计 。 当 然 ,这 会 带 来 较 多 的 数据 宛 余 ,需要 有 更 多 更 精细 人 
的 技术 处 理 。 这 种 ORDB 的 实现 方式 通常 称 为 " 松 耦合 "方式 ， 四 一 
即 以 RDBMS 为 内 核 ,在 其 外 层 整合 一 个 面向 对 象 层 ,如 图 4-14 

















所 示 。 
松 耦 合 方式 以 传统 关系 表 为 基本 数据 结构 ,在 对 象 外 层 增 ORDBMS : 松 硼 全 型 
加 了 复杂 数据 类 型 (聚集 和 结构 类 型 ). 引 用 和 继承 机 制 。 当 前 图 4-14 松 耦 合 方式 
大 多 数 ORDBS 都 采用 这 种 结构 ,如 Oracle 的 ORDBNS 等 。 
此 外 ,还 有 将 关系 与 对 象 关系 功能 相互 融合 紧密 整合 的 “ 紧 耦 合 " 方 式 ,此 种 方式 效果 更 
好 ,但 开发 研制 的 难度 也 更 大 ,如 Infomix 的 Unidata 就 是 如 此 。 
3) ORDB 与 OODB 比较 
ORDB 与 OODB 的 比较 如 表 4-4 所 示 。 


表 4-4 ORDB 与 OODB 比较 



































对 象 关系 数据 库 (ORDB) 面向 对 象 数据 库 (OODB) 
从 SQL 出 发 ,引入 复合 数据 类 型 .引用 数据 类 | 从 OOPL 和 C++ 出 发 ,引入 持久 性 数据 概念 ,对 数据 库 
型 和 继承 性 概念 ,形成 SQL3 标准 进行 操作 ,形成 持久 化 C++ 系统 
SQL3 数据 查询 语言 DDL ODMG ODL( 与 DDL 差异 较 大 ) 
SQL3 数据 查询 语言 ODMG OQL( 具 有 SELECT 语句 风格 ) 
具有 结构 化 和 非 过 程 性 查询 特征 具有 导航 式 和 非 过 程 性 查询 特征 
符合 第 四 代 语 言 符合 面向 对 象 语言 
隐 式 联系 显示 联系 
主键 概念 ,对象 标识 概念 唯一 对 象 标 识 符 
能 够 表示 “对 象 ” 能 够 表示 “关系 ” 
关系 是 核心 概念 对 象 是 核心 概念 
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第 5 章 空间 数据 库 





空间 数据 库 (Spatial Database,SDB) 主 要 用 于 存储 管理 空间 数据 (如 地 理 信息 数据 ) 和 
非 空 间 数据 (如 关于 空间 对 象 说 明 信 息 数 据 )。SDB 在 相应 的 查询 语言 中 提供 各 类 空间 数 
据 类 型 ,能够 进行 空间 索引 ,并 具有 完成 各 类 空间 数据 查询 和 空间 关系 分 析 的 有 效 机 制 。 数 
据 模型 是 数据 库 研 制 的 基础 ; 数据 结构 是 数据 模型 的 决定 性 因素 ; 数据 之 间 相 互 关 系 是 数 
据 结构 赖 以 生成 和 得 以 抽象 的 基础 。 作 为 一 种 特定 的 数据 管理 技术 ,SDB 中 的 数据 对 象 与 
RDB 中 的 数据 对 象 的 区 别 在 于 它 包含 “空间” 形体 的 几何 形状 和 所 处 位 置 ,因此 空间 数据 对 
象 之 间 相互 关系 具有 更 为 复杂 的 语义 描述 。 本 章 首 先 对 SDB 进行 简要 介绍 ,然后 描述 空间 
数据 库 模 型 .空间 索引 及 空间 数据 库 的 系统 结构 。SDB 来 源 于 地 理 信息 系统 (GIS) 提 出 的 
数据 管理 需求 ,同时 也 是 该 系统 的 核心 技术 ,本 章 中 的 相关 原理 和 技术 多 围绕 GIS 的 典型 
应 用 实例 展开 讨论 。 


5.1 空间 和 空间 数据 


空间 和 时 间 是 客观 万 物 赖 以 存在 与 活动 的 基本 框架 ,数据 是 客观 世界 中 各 类 实体 相应 
特征 的 反映 与 表现 ,存储 和 管理 空间 数据 是 数据 库 基 本 的 技术 领域 之 一 。 


5.1.1 室 间 与 室 间 实体 


同时 间 概 念 相 比 , 空 间 概念 相对 比较 成 熟 ,根据 不 同学 科 空 间 概念 使 用 的 基本 需求 ,对 
空间 有 着 不 同 的 理解 和 界定 。 

(1) 数学 。 数 学 中 的 空间 是 指 具有 一 定 结构 和 对 相应 运算 封闭 的 数学 对 象 集合 ,这 些 
集合 在 特定 环境 中 具有 “直观 ”空间 的 意义 和 想象 。 事实 上 ,数学 空间 是 具有 抽象 结构 关系 
和 丰富 研究 内 容 的 特定 集合 。 

(2) 经 典 物理 学 。 牛 顿 经 典 力学 中 空间 是 指 物体 在 3 个 相互 垂直 方向 上 所 具有 的 广 延 
性 ,是 物体 存在 的 环境 和 发 生 相互 作用 的 背景 。 

(3) 现代 物理 学 。 爱 因 斯 坦 相 对 论 力学 中 空间 作为 时 空 连续 体 的 一 个 组 成 部 分 而 存 
在 ,空间 和 时 间 可 以 相互 转换 ,彼此 关联 ,不 可 分 离 。 

(4) 地 理 信息 系统 。GIS 中 的 空间 概念 基于 经 典 物理 学 框架 ,基本 含义 是 客观 对 象 ( 物 
质 、 能 量 和 信息 ) 在 形态 、 结 构 和 功能 关系 上 的 分 布 方 式 及 其 在 时 间 上 的 延续 。 

SDB 起 源 于 GIS 数据 管理 ,其 原理 讨论 的 基础 和 技术 展开 的 支撑 是 经 典 物 理学 中 的 空 
间 概 念 ,并 以 GIS 为 重要 应 用 背景 。GIS 中 的 空间 具有 绝对 空间 和 相对 空间 两 种 形式 。 

(1) 绝对 空间 : 具有 用 空间 位 置 属 性 进行 描述 的 “空间 位 置 "的 集合 ,由 一 系列 不 同位 
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置 的 空间 坐标 值 所 组 成 。 

(2) 相对 空间 : 具有 空间 关系 属性 特征 的 “空间 实体 ”集合 ,由 不 同 实体 之 间 的 空间 关 
系 构成 。 

GIS 中 的 地 理 空间 被 建 模 为 二 维 或 三 维 欧 氏 空间 中 的 子 集 ,在 其 中 存在 的 客观 实体 (地 
理 实体 ) 称 为 空间 实体 或 空间 对 象 。 空 间 实体 通常 被 建 模 为 结 点 、 弧 段 、 多 边 形 及 基于 其 上 
的 其 他 “组 合 ”型 的 空间 形体 。 空 间 实体 基本 要 素 是 其 形状 \ 位 置 和 相互 之 间 的 空间 关系 。 
根据 所 讨论 空间 实体 间 关 系 的 不 同 可 以 定义 不 同 的 空间 类 型 ,如 距离 关系 对 应 度量 空间 中 
的 数据 类 型 ,拓扑 关系 对 应 一 般 空间 中 的 数据 类 型 等 。 

在 给 定 空 间 中 ,SDB 主要 关注 空间 实体 对 象 的 下 述 基本 特征 。 

(1) 维 数 特征 。 空 间 和 非 空 间 系统 基本 区 别 是 “多 维 性 ”, 即 相应 系统 支持 的 空间 维度 。 
一 般 而 言 ,” 维 系统 支持 的 空间 维 数 小 于 或 等 于 ”。 在 欧 氏 空间 中 通过 独立 参考 轴 数 量 确定 
维 数 。 在 GIS 中 ,二 维和 三 维 空间 通常 是 指 * 纯 粹 ”的 二 维 或 三 维 欧 氏 空间 ,而 四 维 空间 通 
常 是 指 三 维 空间 和 一 维 时 间 的 整合 体 。 从 二 维 到 n 维 从 数学 上 来 看 应 当 没 有 本 质 困难 ,但 
从 计算 机 技术 实现 上 考虑 却 有 相当 大 的 差异 。 当 前 SDB 研究 的 空间 实体 多 是 针对 二 维 
空间 。 

(2) 位 置 特征 。 研 究 空间 对 象 首先 需要 对 其 进行 定位 ,此 时 应 该 存在 一 个 参照 系统 用 
以 描述 对 象 的 绝对 或 相对 位 置 。 欧 氏 空 间 中 一 般 采 用 笛 卡 儿 坐 标 系 或 极 坐标 系 作 为 通用 参 
考 系统 。 

(3) 几何 特征 。 空 间 对 象 具 有 各 种 各 样 几何 形状 ,人 们 对 于 空间 对 象 最 直接 和 突出 的 
认 知 就 是 其 所 具有 的 几何 形状 。 空 间 对 象 分 为 人 工 对 象 和 自然 对 象 ,前 者 主要 指 建筑 物 . 道 
路 ,管道 和 通信 网络 等 ; 后 者 主要 指 山脉 ,河流 和 湖泊 等 。 但 不 论 是 人 工 对 象 还 是 自然 对 
象 ,其 集合 特征 通常 都 可 以 抽象 为 点 、 线 、 面 和 体 等 几何 形体 进行 讨论 研究 。 

(4) 关系 特征 。 为 了 建立 数据 模型 ,需要 研讨 相关 数据 对 象 相互 间 的 关系 。 空 间 对 象 
不 仅 其 形状 极其 复杂 ,而 且 相互 间 具 有 基于 距离 .方位 和 拓扑 等 多 层次 的 关联 ,如 两 个 空间 
对 象 距离 远近 ,一 个 在 另 一 个 的 东南 面 、 一 个 和 另 一 个 有 无 相交 、 相 邻 等 关系 。 这 些 关系 一 
般 都 具有 描述 刻画 繁复 、 技 术 处 理 困难 等 特点 ,是 SDB 研发 过 程 中 的 关键 问题 之 一 。 


5.1.2 空间 数据 


随 着 计算 机 技术 发 展 和 应 用 领域 扩大 ,数据 库 不 仅 要 处 理 * 点 ”数据 ,还 需 处 理 非 点 数 
据 , 其 中 就 包括 描述 一 维 .二 维和 三 维 空间 对 象 的 数据 。 

1. 基本 概念 与 特征 

空间 数据 是 指 以 一 维 、 二 维和 三 维 空间 实体 为 描述 对 象 的 计算 机 意义 下 的 数据 。 

空间 数据 早期 应 用 主要 来 自 计算 机 辅助 设计 和 几何 应 用 , 现 已 扩展 到 机 器 人 、 计 算 机 视 
觉 和 图 像 识 别 等 方面 ,特别 是 地 理 信息 处 理 为 空间 数据 管理 技术 研究 开发 提供 了 巨大 应 用 
需求 与 发 展 动力 。 空 间 数据 作为 一 种 非常 规 数据 具有 如 下 特征 。 

(1) 数据 量 巨大 。 空 间 对 象 可 以 相对 简单 ,如 点 、 线 等 ; 也 可 以 极其 复杂 ,如 地 形 图 和 
资源 分 布 图 等 。 即 使 是 简单 对 象 , 相 应 数据 量 也 往往 巨大 ,而 复杂 对 象 通常 需要 分 成 相当 精 
细 的 栅 格 描述 ,其 数据 量 更 是 可 观 , 单 个 对 象 数 据 就 常常 达到 兆 字 节 以 上 。 

(2) 数据 结构 复杂 。 空 间 数 据 需 要 描述 具有 复杂 结构 或 谋 套 层次 的 对 象 ,如 不 规则 的 


多 维 空间 物体 和 分 子 结构 等 。 这 些 对 象 本 身 的 结构 表示 要 比 常规 数据 对 象 更 为 精致 复杂 ; 
同时 ,空间 对 象 通常 是 二 维 以 上 图 形 , 相 互 间 关系 呈现 出 多 样 化 的 特征 且 多 与 应 用 有 关 , 如 
相交 平行. 邻近、 包含 .覆盖 和 相 切 等 。 

(3) 查询 方式 多 样 。 空 间 数据 一 般 按照 其 空间 特征 和 与 其 他 空间 数据 的 相互 关系 进行 
查询 。 空 间 对 象形 状 通常 不 规则 ,查询 条 件 的 描述 和 验证 相当 不 易 , 如 查询 两 个 不 规则 区 域 
相交 的 面积 就 是 一 项 较为 困难 的 工作 。 当 空间 对 象 是 三 维 时 ,如 多 面体 ,计算 它们 的 相交 空 
间 更 是 极其 复杂 。 

(4) 难以 确定 顺序 。 对 于 一 个 空间 如 平面 区 域 集合 ,其 中 元 素 形 状 大 小 不 同 , 彼 此 之 间 
可 以 包含 、 重 琶 、 覆 盖 和 不 相交 ,因此 难以 为 其 定义 一 个 空间 次 序 , 以 致 于 建立 在 一 维 数据 排 
序 基础 上 的 有 效 算法 ,如 排序 和 归并 算法 等 ,都 不 能 有 效用 于 空间 数据 ; 即使 定义 出 某 种 空 
间 顺 序 , 也 可 能 由 于 该 顺序 的 过 于 “人 为 化 ”而 丢失 原 有 信息 ,进而 缺少 有 效 的 实用 价值 。 

2. 空间 数据 语义 范畴 

处 理 数据 的 关键 在 于 表达 确定 的 相关 语义 信息 。 作 为 一 种 异 于 常规 情形 的 计算 机 数 
据 ,空间 数据 需要 包括 下 述 3 个 层面 的 基本 语义 。 

(1) 空间 语义 : 主要 是 空间 定位 、 相 关 度 量 和 相互 关系 信息 。 

中 空间 定位 : 确定 事物 出 现在 何 处 及 事件 发 生 于 何 地 。 

@ 空间 度量 : 用 于 计算 物体 的 长 度 、 面 积 和 体积 ,以 及 物体 之 间距 离 与 相对 方位 。 

@ 空间 关系 : 用 于 确定 物体 之 间 的 分 布 和 拓扑 (如 邻接 .关联 和 包含 等 ) 关 系 。 

(2) 非 空间 语义 。 主 要 是 空间 数据 的 属性 信息 ,分 为 专题 属性 和 质量 描述 两 种 情形 。 

@ 专题 属性 : 对 空间 物体 进行 语义 描述 ,表明 该 物体 是 什么 ,如 “一 座 具 有 产权 的 商 住 楼 ”。 

@ 质量 描述 : 主要 说 明 某 些 具有 补充 性 质 的 信息 ,如 质量 、 数 量 和 等 级 等 。 

(3) 时 间 语 义 : 空间 和 时 间 相 互联 系 不 可 分 割 ,描述 物体 空间 语义 时 通常 也 需 研 究 物 
体 动态 变动 即 物体 要 素 的 时 序 变化 ,实现 对 空间 数据 更 新 、 对 历史 数据 积累 和 对 未 来 改变 的 
预测 。 

在 空间 数据 管理 领域 内 ,主要 研究 (1) 和 (2) 两 种 语义 信息 。 由 于 空间 信息 和 非 空 间 信 
息 存 在 较 大 差异 ,如 何 进行 两 者 有 效 存储 与 整合 处 理 是 SDB 中 的 一 项 基本 技术 。 当 前 空间 
信息 与 非 空间 信息 在 存储 与 连接 方面 主要 有 下 述 几 种 方式 。 

(1) 不 同系 统 分 别管 理 。 通 过 彼此 独立 的 数据 库 系统 对 空间 与 非 空 间 信息 进行 分 别 存 
储 管理 ,使 用 对 象 标 识 技 术 建 立 两 者 之 间 的 对 应 关系 。 

(2) 同一 系统 统一 管理 。 扩 充 常规 数据 库 系统 的 空间 数据 管理 功能 ,在 同一 系统 中 存 
储 管理 空间 与 非 空间 信息 ,使 得 两 者 具有 密切 联系 ,从 而 有 效 利用 常规 系统 的 现 有 功能 ,但 
这 也 需要 使 空间 信息 表示 适应 于 常规 数据 模型 ,降低 了 系统 运行 效率 。 

(3) 统一 结构 管理 。 建 立 空间 与 非 空间 信息 的 统一 结构 ,建立 双向 指针 参照 ,统一 由 一 
个 数据 库 管理 系统 进行 控制 ,从 而 提高 系统 的 灵活 性 和 应 用 范围 。 


5.2 空间 数据 模型 


与 其 他 数据 模型 相 比 ,空间 数据 模型 一 个 突出 的 特点 就 是 其 概念 的 提出 和 引入 与 相应 
的 实际 应 用 密切 相关 。 空 间 数据 管理 起 源 和 发 展 于 GIS 的 建立 和 推动 ,以 GIS 为 应 用 背景 
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讨论 空间 数据 模型 就 成 为 一 种 自然 和 有 效 的 途径 。 
5.2.1 数据 类 型 与 数据 模型 


数据 类 型 本 质 上 和 数据 模型 相通 ,也 是 研究 数据 模型 的 基础 。 以 下 讨论 GIS 中 二 维 空 
间 数 据 类 型 为 主 ,相应 结果 可 以 推广 到 三 维和 三 维 以 上 的 情形 。 

1. 空间 数据 类 型 

在 GIS 中 ,基本 空间 数据 类 型 主要 有 下 述 几 种 情形 。 

(1) 点 (point): 仅 有 空间 位 置 而 不 表示 其 范围 (Extent) 的 对 象 ,如 GIS 中 的 城市 等 。 

(2) 线 (ine): 具有 其 上 多 个 点 的 空间 位 置 描述 同时 还 具有 其 在 空间 延伸 范围 及 长 度 
的 空间 对 象 , 如 河流 .道路 .管道 航线、 等 高 线 和 等 降雨 线 等 。 

(3) 区 域 (region): 具有 空间 位 置 及 面积 和 周 长 等 参数 以 表示 其 覆盖 范围 的 空间 对 象 ， 
如 森林 ,湖泊 和 行政 区 域 等 。 

以 上 述 基本 空间 数据 类 型 为 基础 可 建立 如 下 两 种 “导出 ”的 空间 数据 类 型 。 

(4) 划分 (partition) : 将 一 个 区 域 按 其 自然 .行政 或 其 他 特征 分 解 成 若干 子 区 域 , 当 这 
些 子 区 域 互 不 相交 同时 其 “并 ”又 覆盖 该 区 域 时 , 则 此 子 区 域 集合 就 是 该 区 域 的 一 个 划分 。 
例如 ,国家 行政 区 域 划分 图 和 土地 利用 图 等 。 划 分 可 嵌 套 ,如 国家 分 成 省 市 .省 市 分 成 县 区 
和 县 区 分 成 乡镇 等 。 

(5) 网 络 (Cnetwork): 由 若干 点 和 一 些 点 与 点 之 间 的 连 线 组 成 图 形 结构 ,如 公路 网 、 河 
网 电力 网 电话 网 和 交通 线路 图 等 。 

2. 空间 数据 模型 

空间 数据 管理 涵盖 的 应 用 范围 极其 广阔 ,不 同 需 求 有 着 不 同 的 数据 应 用 模式 ,从 理论 上 
来 讲 , 需 要 有 一 个 共同 的 数据 模型 作为 基础 以 便 进行 系统 的 整体 构建 设计 ,同时 也 作为 进入 
系统 的 空间 数据 正确 与 否 的 判断 及 进行 各 类 应 用 系统 比较 评价 的 规范 标准 。 然 而 ,由 于 空 
间 数 据 自身 结构 形状 极为 复杂 ,描述 和 处 理 相 互 之 间 空 间 关 系 更 为 困难 ,因此 在 技术 实现 上 
难以 像 关 系数 据 库 那 样 提出 一 个 统一 模型 的 框架 思路 ,只 能 依照 对 现实 世界 提取 空间 数据 
的 不 同 视 角 和 方式 建立 相应 的 空间 数据 模型 。 如 前 所 述 ,在 GIS 中 ,有 基于 空间 坐标 (主要 
是 空间 位 置 ) 的 绝对 空间 和 基于 属性 特征 (主要 是 空间 关系 ) 的 相对 空间 之 分 ,通常 就 以 此 建 
立 相 应 的 两 种 不 同 空间 数据 模型 , 即 基于 绝对 空间 概念 的 矢量 模型 和 基于 相对 空间 概念 的 
镶嵌 模 型 。 

1) 矢量 模型 

矢量 模型 (vector model) 是 将 空间 对 象 抽象 为 确定 的 可 识别 的 数据 对 象 ,并 使 用 点 、 线 、 
面 和 其 他 几何 体 等 一 组 基本 空间 数据 类 型 描述 空间 对 象 。 

在 矢量 模型 中 ,前 述 基本 空间 数据 类 型 可 以 表示 如 下 。 

(1) 点 对 象 : 由 单独 坐标 对 (z,y) 表 示 。 例 如 ,使 用 点 描述 大 比例 地 图 上 的 城市 等 零 维 
对 象 。 

(2) 线 对象 : 由 坐标 对 序列 (zi ,wm )、(Cz ,yz)、…、(x,，y) 表 示 。 例 如 ,使 用 线 描述 河 
流 、 铁 路 和 公路 线 等 一 维 对 象 。 

(3) 面 对 象 : 由 一 组 有 序 且 首尾 相 接 的 坐标 集合 {Cz,y)}( 即 线 对 象 ) 表 示 其 轮廓 范围 ， 
即 (zi,y)、(Cza ,yz)、…、(zn，ys)。 例 如 ,使 用 面 描述 各 个 行政 区 域 等 二 维 对 象形 状 。 


(4) 复杂 体 对 象 : 由 一 般 几 何 体 对 象 即 点 ` 线 和 面 的 集合 体 表 示 



























































。 例 如 ,由 一 般 几 何 体 











描述 建筑 的 集合 、 群 岛 等 更 为 复杂 的 空间 对 象 。 
一 个 空间 对 象 实例 的 基于 矢量 模型 的 数据 抽象 如 图 5-1 所 示 。 
_-5 
二 
1 a 人 
| 
I 1 GN A 
. b i! ll \ 
F h \ 
1 本 I \ 
3 es V6 
ss = 
(a) 绝对 空间 中 的 空间 实体 
1 2 | 3 4 5 6 7 8 9 
XH | Xo | N33 | X44 | X55s | X66 | X77 | Xs ys | Xo, yo 
(b) 点 对 象 的 数据 建 模 
线 编号 | 始点 | 终点 | 点 编号 
a 站 3- 4 1 2, 3 
b 3 | 4 3,4 
-| 3 | 4, 5, 6, 3 
d P| 7, 9, 8 
(c) 线 对 象 的 数据 建 模 
多 边 形 编号 边界 编号 
I ab 
I d 
亚 b,c 








(d) 面 对 象 的 数据 建 模 
图 5-1 基于 矢量 模型 的 空间 对 象 建 模 


矢量 模型 按照 对 空间 坐标 数据 组 织 与 存储 方式 的 不 同 分 为 下 述 两 种 情形 。 

(1) 拓扑 模型 : 将 空间 实体 间 某 些 拓扑 关系 直接 进行 存储 而 没有 数据 元 余 。 

(2) 非 拓扑 模型 : 空间 对 象 用 一 系列 坐标 串 表 示 。 点 对 应 于 坐标 序 对 (z,y) , 线 对 应 于 
坐标 序 对 (x,y) 的 序列 , 面 对 应 由 起 点 和 终点 坐标 表示 的 线 围 成 的 多 边 形 。 由 于 模型 记录 
空间 实体 形体 信息 而 没 考虑 空间 实体 间 相 互 关 系 , 此 时 需要 通过 在 数据 文件 中 搜索 所 有 实 
体 信息 并 经 过 大 量 计算 得 到 对 象 的 空间 关系 ,按照 此 模型 难以 有 效 进行 空间 分 析 , 通 常 只 适 
用 于 无 须 考 察 对 象 空间 关系 的 领域 (如 地 图 制图 等 ) 。 

矢量 模型 能 够 方便 地 表示 空间 对 象 之 间 的 拓扑 关系 .图 形 精度 较 高 而 数据 存储 量 较 小 ， 
易于 定义 和 操纵 单个 数据 目标 ,还 可 直接 进行 坐标 变换 和 距离 计算 等 操作 ,但 缺乏 与 遥感 及 
数字 地 面 模型 直接 结合 的 能 力 ,数据 结构 比较 复杂 ,难以 进行 重 释 等 操作 。 

2) 镶嵌 模型 

镰 钳 模 型 (tessellating model) 将 所 考虑 的 空间 对 象 所 处 的 平面 块 ( 如 地 球 表面 ) 划 分 为 
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大 小 相等 的 网 格 阵列 ,每 个 网 格 作为 一 个 像素 或 基 元 (voxel) 。 网 格 中 的 所 有 像素 按照 行 与 
列 进行 定义 ,各 个 像素 相互 邻接 、 自 身 连 通 和 互 不 重合 。 网 格 行列 中 的 每 个 像素 包含 一 个 代 
码 表示 其 属性 类 型 与 取 值 ,也 可 以 仅 包 含 指向 其 属性 记录 的 指针 。 

作为 一 种 简单 直观 的 空间 数据 结构 , 灸 嵌 模 型 也 称 为 网 格 结构 或 像素 结构 ,或 者 称 为 基 
于 域 的 栅 格 数据 模型 。 

由 上 述 分 析 可 知 ,镶嵌 模型 中 的 栅 格 数据 是 以 规则 的 阵列 表示 空间 实体 或 现象 分 布 的 
一 种 数据 结构 。 灸 典 数 据 模型 的 一 个 实例 如 图 5-2 所 示 。 
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图 5-2 ”镶嵌 数据 模型 的 一 个 实例 


在 灸 骨 模 型 中 ,前述 基本 空间 数据 类 型 可 以 表示 如 下 。 

(1) 点 对 象 : 由 包含 其 在 内 的 单独 像素 表示 。 

(2) 线 对 象 : 由 其 中 心 轴线 上 的 像素 序列 表示 。 

(3) 面 对 象 : 由 覆盖 其 上 的 像素 集合 来 表示 。 

按照 所 取 像 素 或 基 元 相同 与 否 , 灸 嵌 模 型 可 分 为 下 述 两 种 情形 。 

(1) 规则 镶嵌 : 基 元 彼此 相同 ,通常 由 规则 正方 形 、 三 角形 等 组 成 。 常 用 方法 有 栅 格 矩 
阵 , 行 程 编码 和 四 叉 树 等 。 

(2) 不 规则 镶嵌 : 基 元 多 边 形 随 着 地 形变 化 而 变动 ,常用 方法 有 不 规则 三 角 网 、 泰 森 多 
边 形 、Voronoi 图 和 Peano 曲线 等 。 

镶嵌 模型 可 直接 利用 遥感 及 数字 摄影 测量 和 扫描 等 途径 获得 栅 格 形式 数据 ,数据 结 
构 简 单 ,计算 像 素 和 其 邻 域 间 方 位 、 邻 接 即 连通 等 拓扑 性 质 比 较 方便 ,可 以 有 效 实现 地 图 
或 图 像 重 又 位 置 运 算 并 进行 相关 空间 分 析 。 但 当 数 据 精 度 增加 时 ,数据 量 会 不 断 增长 ， 
对 系统 存储 要 求 较 高 ,同时 查询 速度 也 会 降低 ,难以 实现 空间 实体 的 旋转 及 坐标 变换 操 
作 , 对 空间 实体 识别 与 标识 操作 也 相对 困难 , 需 通 过 赋予 基 元 不 同 标识 号 来 区 别 不 同 空 
间 实 体 。 


5.2.2 空间 对 象 关系 


数据 模型 的 基本 点 在 于 数据 对 象 的 表示 和 数据 关系 的 描述 。 空 间 数据 对 象 的 表示 就 是 
其 空间 位 置 和 空间 形状 的 表示 ,而 数据 相互 关系 描述 就 是 其 度量 关系 拓扑 关系 和 位 置 方位 
关系 的 描述 。 相 对 于 常规 数据 ,空间 数据 在 这 两 个 方面 都 具有 自身 显著 特点 ,同时 也 构成 空 
间 数 据 模型 讨论 的 基本 内 容 。 从 数据 管理 角度 考虑 ,空间 数据 表示 主要 通过 空间 近似 图 形 
实现 ,而 空间 数据 关系 描述 则 主要 通过 度量 计算 和 拓扑 刻画 实现 。 

如 前 所 述 ,空间 数据 的 “空间 ”是 “ 欧 氏 空间 ”。 下 面 给 出 空间 数据 基本 平台 欧 氏 空间 的 
数学 概念 。 

欧 氏 空间 : 设 R 为 实数 域 ,V 是 R 上 向 量 的 非 空 集合 , 若 在 V 上 定义 满足 如 下 条 件 的 
称 为 内 积 的 一 个 二 元 函数 <z,y >, 则 称 V 为 R 的 欧 氏 空间 。 

(1) 非 负 性 : <z,z > 宇 0,<zx,z>=0 Sr=0, rEV。 

(2) 对 称 性 : <z,y> 一 <y, 工 >。 

(3) 线性 性 : <az 十 By,z >=a<zx,z>+B<y,z>,a,BPER; zyzEV。 

直线 尺 ,平面 R。 和 空间 Rs 通过 适当 定义 内 积 之 后 都 是 欧 氏 空间 。 

1. 空间 关系 类 型 

GIS 在 欧 氏 空间 中 讨论 其 中 空间 对 象 相互 间 的 关系 。 这 些 关 系 可 以 分 为 基于 度量 、 拓 
扑 和 方位 的 3 种 类 型 。 

1) 度量 关系 

设 有 一 个 集合 下 ,如 果 在 巨 上 定义 了 一 个 二 元 函数 d(z,y),z,yE 巨 ,满足 如 下 条 件 。 

(1) 非 负 性 : d(xz,y) 宇 0。 

(2) 对 称 性 : dgCz,y) 王 dCy,z) 。 

(3) 三 角 不 等 性 : d(x,y) 二 d(xz,z) 十 d(z,y)。 

则 称 巨 是 一 个 度量 空间 ,d(xz,y) 称 为 E 上 的 度量 函数 。 

欧 氏 空间 就 是 最 常用 的 度量 空间 。 作 为 度量 空间 , 欧 氏 空间 中 坐标 轴 上 两 点 之 间 的 距 
离 函 数 一 一 绝对 值 函 数 , 以 及 二 维 平面 上 和 三 维 空间 中 的 距离 函数 一 一 相应 坐标 差 完全 平 
方 之 和 的 方 根 函 数 等 都 是 满足 上 述 3 条 的 度量 函数 ,一 般 度量 函数 可 看 作 是 通常 距离 函数 
的 推广 。 

基于 度量 函数 的 空间 对 象 度量 关系 主要 有 下 述 情 形 。 

(1) 两 个 点 对 象 之 间 的 距离 。 

(2) 单个 线 对 象 的 长 度 。 

(3) 单个 平面 图 形 的 面积 和 其 边界 曲线 的 长 度 。 

(4) 单个 空间 对 象 的 体积 和 其 表面 积 。 

(5) 一 个 空间 对 象 相对 于 另 一 个 空间 对 象 的 距离 。 

2) 拓扑 关系 

拓扑 关系 是 空间 对 象 间 最 重要 的 一 种 相互 关系 。 

基于 拓扑 的 空间 对 象 关 系 主 要 有 下 述 情形 。 

(1) 邻接 (meet) : 两 个 空间 对 象 之 间 具 有 共同 的 边界 。 

(2) 包含 (contain) : 一 个 空间 对 象 作为 点 对 象 的 集合 包含 在 另 一 空间 对 象 的 点 集合 











答 间 发 握 库 


地 四 


高 级 数据 亩 基础 改 程 





当中 。 

(3) 交 全 (overlap) : 一 个 空间 对 象 看 作 点 的 集合 与 另 一 空间 对 象 的 点 集合 相交 。 

上 述 三 类 是 空间 数据 查询 中 最 常 出 现 的 拓扑 关系 。 例 如 ,行政 区 域 间 的 相 邻 ,城市 包含 
其 中 的 公园 ,发 生地 震 区 域 与 发 生火 灾 地 域 的 重 释 等 。 空 间 拓扑 关系 是 空间 分 析 的 基本 工 
具 , 空 间 数据 特征 在 很 大 程度 上 取决 于 数据 拓扑 性 质 的 合适 描述 与 有 效 存 储 。 空 间 拓扑 关 
系 表示 与 刻画 需要 采用 数学 中 点 集 拓扑 和 代数 拓扑 的 基本 原理 和 方法 。 

基于 拓扑 关系 的 空间 数据 查询 通常 需要 考虑 下 述 两 个 问题 。 

(1) 查询 所 有 与 给 定 对 象 具 有 某 种 拓扑 关系 R 的 空间 对 象 。 

(2) 给 定 对 象 A 和 BB 具有 怎样 的 拓扑 关系 。 

为 了 从 数学 上 描述 空间 对 象 拓扑 关系 ,需要 分 析 空 间 对 象 的 组 成 成 分 。 

设 A 是 空间 对 象 , 引 入 下 述 概念 与 符号 。 

Q@ A 的 内 部 A': A 的 所 有 “内 点 ”的 集合 (如 果 一 个 点 a 存在 一 个 邻 域 包含 于 A 内 , 则 
称 a 为 A 的 内 点 )。 

@ A 的 外 部 A”: A 的 所 有 “外 点 ”的 集合 (如 果 一 个 点 a 存在 一 个 邻 域 包含 于 A 的 补 
集 A* 内 , 则 称 a 为 A 的 外 点 )。 

@ A 的 边界 9A: A 的 所 有 “边界 点 ”的 集合 (如 果 一 个 点 a 存在 一 个 邻 域 同时 与 A 和 
A* 内 相交 , 则 称 a 为 A 的 边界 点 )。 

两 空间 对 象 A 和 B 之 间 的 二 元 拓扑 关系 基于 各 自 对 象 成 分 的 相交 (Intersection) 关 系 。 

空间 对 象 A 和 B 的 6 个 组 成 部 分 分 别 构成 下 述 9 种 相交 情况 : AM 站 BA 几 9B,A' 站 
B- .9ANB: .3A MNaB.9AN B- .A- NB' .A NaB.A NB—。 

考虑 到 布尔 判断 中 的 取 值 情况 为 {0,1) ,可 以 确定 共有 2 一 512 种 二 元 拓扑 关系 。 在 实 
际 问题 当中 主要 研究 其 中 的 8 种 彼此 互 斥 关系 : 相 离 (disjoint)、 邻 接 (meet)、 交 对 
(overlap) ,相等 (equal) 包含 (contain)\ 在 内 部 (inside) ,覆盖 (cover) ,被 覆盖 (covered by) 。 

3) 方位 关系 

与 前 述 “ 度 量 " 和 “拓扑 ”关系 不 同 ,空间 对 象 方位 关系 没有 相应 的 数学 工具 支撑 ,呈现 比 
较 复杂 的 情形 ,通常 使 用 上 下 ”左右 "和 “东南 西北 "等 方向 概念 描述 方位 关系 。 

在 实际 应 用 中 ,空间 对 象 方位 关系 分 为 下 述 3 种 情形 。 

(1) 绝对 方位 : 全 球 定位 系统 背景 下 的 方位 ,如 东西 . 南 、 北 、 东 南 、 西 南 和 东北 等 。 

(2) 相对 方位 : 根据 与 给 定 目标 的 方向 来 定义 的 方位 ,如 左右 .前 后 和 上 下 等 。 

(3) 基于 观察 者 方位 : 按照 专门 指定 的 称 为 观察 者 参照 对 象 来 定义 的 方位 。 

2. 空间 关系 谓词 形式 

由 于 “度量 "和 “拓扑 ”关系 本 质 上 都 是 数学 关系 ,因此 可 以 方便 地 进行 相应 的 谓词 形式 
描述 ,从 而 为 在 计算 机 实现 这 些 关系 提供 原理 支持 。 为 讨论 空间 关系 谓词 描述 ,需要 事先 设 
定 相应 的 基本 符号 。 

(1) SDT: 空间 数据 类 型 。 

(2) ZS: 大 小 为 零 (zero size) 的 空间 数据 类 型 ,如 点 。 

(3) NZS: 大 小 非 零 (non-zero size) 的 空间 数据 类 型 ,如 线 、 区 域 等 。 

(4) ADT: 原子 (atomic) 空 间 数据 类 型 ,如 点 、 线 、 区 域 。 





(5) CDT: 集合 型 (collection) 空 间 数 据 类 型 ,如 网 络 、 划 分 等 。 
(6) PT: 点 。 

(7) LN: 线 。 

(8) RG: 区 域 。 

(9) PTN: 划分 。 

(10) NTW: 网 络 。 

上 述 空间 数据 类 型 对 象 的 层次 关系 ,如 图 5-3 所 示 。 
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图 5-3 空间 数据 类 型 对 象 的 层次 关系 














1) 度量 关系 描述 

(1) 两 点 间距 离 (DIST): PTXPT->NUM DIST。 

(2) 两 空间 图 形 间 的 最 大 、 最 小 距离 (MAXDIST, MINDIST); SDT x SDT> NUM 
MAXDIST 或 MINDIST。 

(3) 多 点 的 直径 (DIAMETER): PT-~ NUM DIAMETER 。 

(4) 线 的 长 度 (LENGTH): LN NUM LENGTH。 

(5) 区 域 的 周 长 (PERIMETER) 或 面积 (AREA): RG 一 NUM PERIMETER 或 AREA。 

2) 拓扑 关系 描述 

(1) 两 个 同类 型 空间 数据 是 否 相 等 (= 或 去 ): 

PTXPT -=Booly 

LNXLN-> Bool; 

RGXRG 一 Bool。 

(2) 空间 数据 SDT 是 否 在 区 域 RG 中 (INSERT) : 

SDTX RG 一 Bool。 

(3) 两 非 零 空 间 数 据 是 否 相 交 (INTERSECTS): 

NZSX NSZ—> Bool。 

非 零 空间 数据 相交 有 下 述 3 种 情形 。 

(1) 条 线 相交 为 点 的 集合 : LNXLN>2™。 

(2) 线 与 区 域 相交 为 线 的 集合 : LNX RG 一 2"™。 

(3) 区 域 与 区 域 相 交 为 区 域 的 集合 : RGX RG 一 2 。 

其 中 ,如 果 设 下 是 集合 ,那么 2 表示 下 的 圭 集 。 

上 述 空间 对 象 相交 情形 ,如 图 5-4 所 示 。 

(4) 两 区 域 是 否 邻 接 (IS 一 NEIGHBOR 一 OF) : 

RGX RG—>Bool, 
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(a) 线 与 线 相交 (b) 线 与 区 域 相交 (©) 两 区 域 相交 
5-4 空间 对 象 相交 情形 


了 5-5 所 示 。 ~ 
0 _A 


(6) 中 心 点 (CENTER) 求 线 或 者 区 域 的 几何 中 心 点 : 
NZS 一 PT。 


5.2.3 室 间 对 和 象 近似 


空间 数据 形状 通常 相当 复杂 ,进行 精确 的 数学 表示 极其 困难 甚至 是 不 可 能 的 ,进而 也 难 
以 在 查询 技术 层面 上 进行 空间 关系 的 描述 与 实现 。 对 于 比较 复杂 的 数据 处 理 如 数据 查询 ， 
通常 可 以 分 为 两 步 进行 : 一 是 排除 掉 大 部 分 没有 必要 查询 的 数据 ; 二 是 在 剩余 数据 集 上 进 
行 相应 技术 处 理 。 例 如 ,基于 索引 查询 就 是 如 此 , 即 通过 在 数据 集合 上 索引 进行 “近似 ”查询 
以 实现 查询 目标 的 “必要 ”条 件 ,再 在 剩余 数据 上 进行 “精确 ?查询 以 实现 查询 目标 的 “充分 ” 
条 件 。 因 此 可 以 考虑 空间 对 象 的 一 种 “近似 ”表示 方法 ,即使 用 一 种 完全 包围 空间 对 象 的 简 
单 几 何 图 形 如 和 矩形、 圆周 或 规则 多 边 形 来 近似 表达 目标 对 象 。 这 样 ,查询 目标 对 象 是 否 满足 
查询 条 件 的 充分 必要 条 件 问题 就 先 转化 为 相应 简单 几何 图 形 是 否 满足 必要 条 件 的 问题 。 简 
单 几何 图 形 定位 与 运算 相对 简单 ,便于 计算 机 实现 ,应 用 实践 已 经 表明 这 样 确实 大 大 减少 各 
种 复杂 的 操作 过 程 ,提高 系统 效率 。 

1. 图 形 近 似 

空间 对 象 近似 分 为 “点 ”近似 和 "基本 图 形 ? 近 似 两 种 情形 。 

1) 点 近似 

点 是 基本 空间 数据 类 型 之 一 , 非 空间 数据 多 属性 查询 也 相当 于 多 维 空间 点 的 搜索 。 某 
些 规则 图 形 也 可 用 更 高 维 空间 点 表示 。 因 此 ,点 近似 是 一 种 简单 直观 的 降 维 方法 。 

(1) 一 维 空间 线段 [a,6]: 使 用 二 维 空间 点 (e :0 表示 。 

(2) 二 维 空间 的 边 平 行 于 坐标 轴 和 矩形 {(zi ,yi1),(xz ,yz)): 使 用 四 维 空间 点 (zi ,yi,zz， 
% ) 表 示 , 其 中 (zi,y)、 (zs ,yz) 分 别 为 矩形 的 左下 角 和 右上 角 坐 标 。 

2) 基本 图 形 近似 

空间 对 象 的 近似 基本 图 形 主 要 有 下 述 几 种 类 型 。 

(1) 最 小 限定 矩形 : 使 用 和 坐标 轴 平 行 的 “矩形 ”包围 目标 图 形 , 这 里 矩形 可 以 是 高 维 
情形 。 

(2) 最 小 限定 圆 : 使 用 圆周 包围 目标 图 形 ,这 里 圆周 也 可 以 是 高 维 情形 。 

(3) 最 小 限定 多 边 形 : 使 用 规则 多 边 性 包围 目标 图 形 。 

上 述 “ 最 小 ”是 指 所 有 相应 基本 图 形 中 的 “最 小 ”者 , 即 青 小 就 不 能 包围 给 定 空间 对 象 。 











图 5-5 ”两 个 区 域 邻接 情形 


上 述 “ 最 小 限定 和 矩形 ”方法 是 讨论 空间 对 象 常用 的 和 基本 的 近似 方法 。 

包含 目标 图 形 的 边 平行 于 坐标 轴 的 最 小 矩形 称 为 目标 图 形 的 最 小 限定 矩形 (Minimum 
Bounding Rectangle, MBR)。 设 二 维 MBR 左下 角 坐 标 为 (zi ,yi), 右 上 角 为 (zz ,ys), 则 福 1 
和 就 分 别 为 空间 对 象 的 最 小 横 坐 标 和 纵 坐 标 ,zs 和 y 分 别 为 空间 对 象 的 最 大 横 坐 标 和 纵 
坐标 。 由 上 述 “ 点 近似 "可知,MBR 可 以 使 用 其 对 角 线 上 的 两 个 顶点 表示 。 因 此 ,MBR 的 意 
义 实 际 上 是 将 一 般 空间 形体 使 用 规则 图 形 MBR 近似 表示 ,进而 再 将 MBR 使 用 两 个 顶点 进 
行 表示 ,从 而 是 将 空间 形体 使 用 了 两 个 点 进行 近似 表示 。 

MBR 不 仅 可 以 近似 表示 区 域 , 还 可 以 近似 表示 MBRA 
线段 。 更 进一步 ,不 仅 单个 空间 对 象 可 以 用 MBR 近 























似 表示 ,有 时 MBR 还 可 以 包含 多 个 空间 对 象 。 最 小 总 
限定 矩形 如 图 5-6 所 示 。 
如 果 一 个 MBR 还 含有 另外 的 MBR ,可 称 其 为 目 B 
录 MBR ,否则 就 称 为 对 象 MBR 。 
如 前 所 述 ,使 用 MBR 近似 表示 空间 形体 ,能 够 有 (a@) 区 域 MBR (b) 线 MBR 





效 实现 对 空间 形体 相互 关系 的 必要 条 件 判 定 。 例 如 ， 

如 果 两 个 空间 对 象 相交 ,相应 的 MBR 也 相交 ; 如 果 

两 个 MBR 不 相交 , 则 对 应 的 两 个 空间 对 象 也 不 相交 。 这 样 , 用 MBR 代替 空间 对 象 检 查 相 
交情 况 ,就 可 以 排除 一 批 不 相交 的 对 象 , 实 现 查 询 的 必要 条 件 。 当 然 , 两 个 MBR 相交 ,并 不 
能 得 出 对 应 的 空间 对 象 一 定 相 交 , 此 时 还 需要 用 精确 方法 (高 级 程序 语言 编程 的 方法 等 ) 对 
MBR 相交 的 空间 对 象 逐个 进行 检验 , 找 出 真正 相交 的 情形 。 先 用 高 效率 的 近似 方法 进行 得 
选 , 再 用 精确 方法 进行 确认 以 实现 查询 的 充分 条 件 ,这 实际 上 是 包括 SDB 在 内 的 高 级 数据 
库 中 常用 的 一 种 查询 搜索 方式 。 

基于 基本 图 形 近似 的 空间 数据 索引 技术 主要 有 R-tree 及 其 各 种 拓展 形式 。 

2. 栅 格 近似 

用 栅 格 (grid) 近 似 表示 空间 对 象 ,类 似 于 用 点 阵 和 像素 阵列 等 表示 二 维 图 像 , 原 则 上 可 
以 推广 到 高 维 空间 ,但 主要 用 于 二 维 空间 。 栅 格 近 似 可 以 有 效 使 用 在 镰 嵌 模 型 当中 。 

基于 栅 格 近似 的 空间 索引 技术 主要 有 G-file、R-file 和 Z- 排 序 等 。 

栅 格 近似 技术 要 点 是 对 其 中 所 有 像素 基 元 的 进行 编码 排序 以 有 效 地 表示 空间 数据 和 描 
述 空间 对 象 相互 之 间 的 关系 。 

下 面 主要 以 图 5-7 所 示 的 Z- 排 序 讨论 像素 基 元 的 编码 排序 。 

在 图 5-7 中 ,用 两 位 二 进 制 串 表 示 二 维 空间 的 4 个 象限 ,象限 编码 次 序 恰 好 是 Z 形 。 

每 个 象限 还 可 以 再 分 为 4 个 象限 。 如 此 递归 下 去 ,直至 方 格 分 得 足够 细 ,整个 空间 看 似 
一 个 栅 格 ,可 用 来 近似 表示 二 维 图 形 。 这 些 方 格 用 同样 的 规则 编码 。 

在 图 5-7(b) 中 ,有 个 方 格 注 有 1110 ,这 就 是 该 方 格 的 编码 。 该 方 格 位 于 图 5-7(a) 的 11 
象限 中 ,所 以 编码 前 两 位 是 11。 该 象限 又 被 一 分 为 四 ,该 方 格 位 于 再 次 前 分 后 的 10 象限 ,所 
以 方 格 编码 的 后 两 位 是 10。 不 难看 出 ,图 5-7(b) 中 16 个 方 格 编码 从 0000 开始 , 按 图 5-7(b) 中 
连 线 的 次 序 , 依 次 增 至 1111。 连 线 外 形 是 一 个 Z 形 。 按 这 种 方法 继续 剖 分 和 编码 , 栅 格 中 
每 个 方 格 按 Z 形 连 线 排序 。 这 种 编码 排序 就 是 Z 序 (Z-order) 栅 格 。 


图 5-6 ”最 小 限定 矩形 
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(a) 第 1 趟 编码 




















(b) 第 2 趟 编码 
5-7 Z 序 栅 格 


Z 序 栅 格 中 每 个 区 域 都 可 近似 表示 为 二 进 制 串 的 集合 并 称 其 为 该 区 域 Z 元 素 (Z-element) 。 
考察 两 区 域 相交 或 包含 与 否 时 ,就 可 以 按 序 比较 两 个 区 域 的 Z 元 素 。 
如 果 一 个 二 进 制 串 是 另 一 个 二 进 制 串 的 前 级 , 则 后 者 所 代表 的 域 包 含 于 前 者 所 代表 区 
域 ,如 100101 一 定 包含 在 1001 中 。 
下 面 是 A、B 区 域 Z 元 素 , 经 比较 可 找 出 它们 重生 部 分 。 
Ai A。 As 
A: 0110,10, 10010,100110,.10110 ,… 
B: 0111,100, 1010, 1011, 1101,…- 
Bi B, B; 
重 琶 部 分 为 (Ai,B1)、(Ai,B,)、(Ai,B;)、(B,A,)、(B,A;:)、…. 
在 上 面 的 重 释 栏 中 ,二 元 组 的 第 一 项 覆盖 第 二 项 。 
用 Z 次序 的 机 格 表示 区 域 ,将 二 维 空间 对 象 用 一 维 有 序 二 进 制 串 序列 表示 ,并 且 该 字 
符 串 作 为 二 进 制 数列 还 是 单调 增加 ,因此 空间 对 象 所 在 区 域 就 可 以 以 二 进 制 串 作为 索引 键 ， 
组 成 一 棵 B-tree。 
3. 基本 图 形 空间 关系 
如 前 所 述 , 空 间 数据 管理 的 基础 是 通过 基本 图 形 近 似 来 表示 实际 空间 图 形 , 此 时 ,空间 


对 象 相互 间 的 空间 关系 就 可 以 转换 为 基本 图 形 的 空间 关系 进行 "先期 "处 理 。 基 本 近似 图 形 
中 的 线段 和 MBR 最 为 常用 ,下 面 讨论 基于 线段 和 MBR 之 间 相 巨 空间 的 关系 。 

1) 一 维 空间 线段 间 关 系 

一 维 空间 中 两 个 线段 具有 如 图 5-8 所 示 的 7 种 可 能 关系 ,分 别 用 记号 “二 ”*[”*%”]” 
“/”*| "<" 表示。 








A 1 A 1 A TT A 人 
1 1 1 1 1 
B J B 1 B 昨 === B i 
(a) A=B (b) A[B (c) A%B (d) A]B 
A A a 小 
B | B == B 二 
(e) A/B (DAIB (g) A<B 


5-8 一 维 空间 线段 的 关系 


图 5-8 中 (a) 一 (e) 是 相交 关系 ,(f) 和 (g) 是 非 相 交 关 系 。 

设 A、B 线段 的 起 点 和 终点 分 别 为 Zia \zzA 、Zis\zza, 则 图 5-8 中 (a) 一 (e) 的 关系 可 以 归 
纳 为 max{ziAyzia}< min{zzAyzza}。 

2) 二 维 空间 矩形 间 关 系 

在 二 维 欧 氏 空间 中 ,一 个 矩形 由 其 4 个 顶点 的 坐标 确定 。 但 是 当 一 个 矩形 的 两 个 相 邻 
边 分 别 平行 于 坐标 轴 时 ,只 需要 位 于 对 角 线 上 两 个 顶点 即 可 确定 该 矩形 。 

和 矩形 之 间 的 相互 关系 可 分 为 相交 、 相 离 和 包含 3 种 情形 ,其 中 包含 可 看 作 相交 的 特例 。 

设 A、B 为 这 种 矩形 ,其 左下 角 坐 标 和 右上 和 角 坐 标 分 别 为 {Czia,yaA), (zaAyyzA)) 和 
{(Cziayyia),(Czzayya)}。 则 可 以 得 到 如 下 A 和 B 空 间 关 系 的 判定 条 件 。 

(1) 相 离 。 如 图 5-9 所 示 , 当 A 和 也 在 坐标 轴 上 有 一 组 投影 不 相交 , 则 A 和 了 就 不 会 
相交 。 

由 此 可 得 ,A 和 B 相 离 的 充 要 条 件 为 : 

zB< Yn( 人 A 在 B 上 方 ) Vya<ya(A 在 B 下 方 ) 
V zsA< zia(A 在 了 B 左 方 ) V zis< zza(A 在 B 布 方 ) 

(2) 相交 。 如 图 5-10 所 示 , 如 果 A 和 B 在 xz 轴 和 yy 轴 上 的 投影 同时 分 别 相交 , 则 A、B 

相交 。 
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图 5-9 和 矩形 A 和 矩形 B 相 离 图 5-10 和 矩形 A 和 和 矩形 B 相 交 
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由 此 可 得 ,A 和 了 B 相交 的 充 要 条 件 为 : 
[max{ziayza}< min{zsAyzz)]ALmax{(yayya}< min{ yza ,yznp}] 
(3) 包含 。 如 图 5-11 所 示 , 如 果 A(B) 在 z 轴 和 yy 轴 上 的 投影 同时 分 别 包含 BCA) 在 xz 
轴 和 yy 轴 上 的 投影 , 则 A(B) 包 含 BCA) 。 


(Wp; 8) 






(ia: DA 





1 
! 

(rp’ PIB)l 1 
1 1 


fs 





5-11 矩形 A 包含 矩形 B 
由 此 可 得 ,B 包含 A 的 充 要 条 件 为 : 


ZiB< ZIA 人 ToA< zop 人 VIB< yIA 人 yaA< .y2B 


5.3 空间 数据 库 系统 


RDB(Relation Database ,关系 数据 库 ) 主要 适应 于 商业 事务 管理 ,难以 有 效 地 表示 、 存 
储 \ 管 理 和 查询 具有 多 维特 征 的 空间 数据 。 例 如 , 当 需 要 查询 “距离 某 超市 3km 范围 内 的 顾 
客 ”, 在 RDB 中 ,需要 先 将 超市 所 在 位 置 和 顾客 住址 变换 到 一 个 便于 比较 和 计算 距离 的 参照 
坐标 系 中 ,然后 系统 扫描 整个 顾客 列表 信息 ,计算 顾客 住址 到 超市 位 置 距离 ,通过 谓词 进行 
选择 , 当 顾 客 住址 到 超市 距离 小 于 3 公里 , 则 输出 顾客 信息 ,否则 继续 搜索 ,直到 所 有 顾客 数 
据 具 备查 询 。 此 时 ,由 于 空间 数据 排序 比较 困难 ,传统 数据 库 优势 如 查询 优化 等 不 能 有 效 发 
挥 作用 ,导致 查询 效率 低下 。 当 然 可 以 使 用 编程 技术 设计 相应 的 应 用 程序 ,但 与 传统 数据 管 
理 情形 类 似 ,过 多 的 应 用 程序 将 导致 系统 接口 众多 ,使 用 复杂 ,安全 性 和 数据 一 致 性 难以 得 
到 保障 ,同时 也 不 符合 一 般 数 据 库 技术 的 基本 要 求 。 开 发 能 够 有 效 管理 空间 数据 的 专用 数 
据 库 系统 就 显得 十 分 必要 ,这 就 是 空间 数据 库 系 统 (Spatial DataBases System,SDBS) 。 


5.3.1 SDB 技术 


SDB 技术 通常 包括 下 述 主 要 内 容 。 

(1) 空间 数据 模型 . 基于 实际 应 用 ,通过 适当 归纳 ,引入 各 种 必需 的 空间 数据 类 型 ,并 
讨论 相应 的 数据 操作 。 

(2) 空间 数据 索引 : 空间 对 象 之 间 难 以 定义 “顺序 ”, 所 以 空间 数据 索引 就 成 为 SDB 技 
术 的 一 个 重要 课题 ,在 这 方面 已 经 取得 了 相当 成 熟 的 结果 .并 且 应 用 到 其 他 的 领域 。 

(3) SDB 管理 系统 : 空间 数据 模型 和 当前 主流 数据 模型 一 一 关系 数据 模型 具有 和 较 大 的 
差异 ,需要 研究 如 何在 RDBMS 基础 上 有 效 扩充 空间 数据 管理 功能 的 问题 。 

当然 ,SDB 无 论 是 理论 还 是 技术 都 还 处 于 发 展 完善 过 程 当 中 ,而 实际 应 用 的 需求 又 非 
常 迫切 ,同时 常规 数据 库 ( 关 系数 据 库 ) 仍 然 是 当今 主流 数据 库 , 所 以 目前 SDB 多 是 作为 传 














统 关系 数据 库 的 扩充 方式 出 现 和 运作 。 

从 本 体 论 角度 ,研究 和 开发 空间 数据 管理 技术 的 意义 主要 包括 下 述 几 个 方面 。 

(1) 空间 是 物质 存在 的 基本 方式 。 任 何事 物 都 有 时 间 、 空 间 形式 和 基本 特性 。 作 为 反 
映 现实 世界 的 数据 库 , 时 间 和 空间 是 数据 的 基本 属性 。 即 使 在 某 些 应 用 中 ,时 间或 空间 属性 
没有 显 式 表现 出 来 ,但 数据 也 * 本 质地 表示 相应 实体 的 当前 状态 和 当前 位 置 。 因 此 ,从 根本 
上 讲 ,所 有 数据 都 应 当 既 有 非 空间 内 容 又 有 空间 内 容 。 例 如 ,一 个 地 区 或 国家 至 少 有 一 个 非 
空间 数据 ,如 国家 名 和 一 个 空间 数据 ,国家 的 边界 。 

(2) 空间 数据 是 实际 应 用 的 基本 形式 。 在 某 些 重要 的 应 用 当中 ,研究 对 象 的 空间 关系 
成 为 查询 或 处 理 的 主要 内 容 , 如 天 文 、 地 理 信息 系 统 GIS ,城市 规划 、 管 道 及 网 络 系统 、 交 通 
图 、 大 规模 集成 电路 版 面 设计 分子 结构 图 和 医学 图 片 等 。 面 向 这 类 应 用 的 数据 库 系统 必须 
在 常规 数据 库 系统 的 基础 上 ,增加 相应 空间 数据 类 型 及 其 相关 操作 ,提供 空间 素材 及 面向 空 
间 应 用 的 交互 式 图 形 用 户 界面 。 

(3) 非 空间 数据 可 作为 空间 数据 处 理 。 在 许多 实际 研究 和 开发 过 程 中 ,数据 尽管 不 属 
于 空间 数据 类 型 ,但 也 可 作为 多 维 空间 问题 处 理 。 例 如 ,在 关系 数据 库 中 , 随 着 普遍 使 用 多 
属性 查询 ,如 果 将 每 个 被 查询 的 属性 看 作 查 询 空间 的 一 个 维 数 , 则 多 属性 查询 便 可 归结 为 多 
维 空间 的 搜索 ; 在 时 态 数 据 库 中 ,可 以 将 相互 正 交 的 “事务 时 间 ” 和 “有 效 时 间 ” 看 作 二 维 的 
空间 数据 ,进而 应 用 SDB 技术 (如 空间 索引 技术 ) 进 行 相关 的 基本 讨论 。 


5.3.2 SDB 结构 


早期 的 SDB 处 理 系统 (如 GIS) 一 般 建 立 在 文件 系统 基础 之 上 ,所 有 空间 数据 定义 和 处 
理 都 由 应 用 软件 解决 。 目 前 仍 有 这 种 系统 在 运行 ,但 是 新 开发 的 系统 多 以 DBMS 为 基础 ， 
最 初 以 RDBMS 为 主 ,后 来 以 ODBMS 为 主 。 下 面 简 述 这 两 种 SDB 系统 结构 。 

1. 基于 RDBMS 系统 结构 

由 于 目前 RDBMS 产品 还 不 能 充分 支持 空间 数据 类 型 及 其 操作 ,解决 这 个 问题 一 般 有 
如 下 两 条 途径 。 

(1) 分 层 机 构 。 这 种 系统 结构 中 的 方法 一 是 在 所 支持 的 数据 类 型 "+ 上方” 增加 一 层 以 实 
现 空间 数据 类 型 及 其 操作 。 用 所 支持 的 数据 类 型 表示 空间 数据 能 够 方便 地 借用 关系 数据 模 
型 表示 ,但 其 缺点 是 构造 复杂 空间 数据 的 开销 很 大 、 性 能 不 好 。 方 法 二 是 以 二 进 制 数据 类 型 
即 图 片 方式 表示 空间 数据 存放 在 RDB 中 ,如 存放 一 张 地 图 或 遥感 图 片 。 这 虽然 可 以 避免 用 
点 、 直 线段 等 简单 数据 类 型 表示 所 有 空间 数据 .但 字段 只 能 存放 原始 数据 ,对 数据 的 解释 还 
是 得 依靠 上 层 解 决 。 

(2) 双重 结构 。 分 层 结构 只 能 利用 的 已 有 功能 对 空间 数据 做 出 有 限 支持 ,而 SDB 存储 
结构 和 索引 等 不 可 能 由 上 层 来 实现 。 为 了 克服 此 缺点 ,可 以 增加 一 个 专门 管理 空间 数据 的 
子 系统 。 有 关 空 间 的 数据 可 分 为 两 个 部 分 : 非 空间 属性 , 存 于 RDBMS 中 ; 空间 属性 , 存 于 
空间 数据 子 系统 中 ,如 图 5-12 所 示 。 两 者 之 间 用 逻辑 指针 ( 即 空 间 属 性 标识 符 ) 相 连 。 这 样 
用 户 看 到 的 却 是 一 个 不 可 剂 分 的 元 组 。 图 5-13 表示 一 个 地 区 A 的 元 组 。 前 两 个 属性 地 区 
名 和 人 口 是 普 通 属性 ,第 三 个 属性 是 该 地 区 的 地 图 ,属于 空间 属性 。 上 层 接口 在 插入 元 组 
时 , 先 将 第 三 属性 用 该 地 区 地 图 标识 符 代 替 , 且 将 此 元 组 存 于 数据 库 当 中 。 该 地 区 地 图 存放 
于 SDB 子 系统 中 。 在 查询 时 ,首先 从 关系 数据 库 中 查 出 表示 该 地 区 的 元 组 ; 然后 根据 第 三 
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属性 标识 符 , 在 空间 数据 子 系统 中 检索 该 地 区 地 图 , 且 由 上 层 接口 装配 成 表示 该 地 区 的 元 
组 。 双 重 结构 比 起 分 层 结构 有 所 前 进 , 但 由 于 多 出 了 一 个 分 解 和 合成 的 步骤 ,增加 了 开销 ， 
更 主要 的 是 缺少 了 全 局 优化 。 例 如 ,在 查询 时 ,有 时 既 可 以 采用 空间 属性 索引 ,也 可 以 采用 
非 空间 属性 索引 ,此 时 ,上 层 接口 无 法 对 此 做 出 选择 ,因为 难以 确定 二 者 的 执行 代价 。 
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2. 基于 OODBMS 或 ORDBMS 系统 

由 于 面向 对 象 数 据 库 管理 系统 已 有 部 分 商业 化 产品 ,而 且 其 中 多 可 以 进行 扩充 ,因此 能 
够 在 其 中 定义 空间 数据 类 型 和 操作 。 空 间 数 据 和 非 空间 数据 可 以 用 相同 方式 进行 处 理 , 这 
就 为 研制 集成 SDB 系统 创造 了 基本 的 技术 条 件 。 

但 OODBMS 或 ORDBMS 仅仅 是 提供 了 扩充 成 空间 的 可 能 ,实现 此 目的 还 需 做 大 量 的 
工作 。 例 如 ,定义 空间 数据 类 型 及 其 操作 ,实现 空间 索引 及 有 关 空 间 数 据 的 用 户 接口 ,增补 
有 关 空 间 数据 的 查询 优化 策略 等 。 从 发 展 来 看 ,建立 在 OODBMS 或 ORDBMS 之 上 的 SDB 
系统 将 会 逐步 成 为 技术 发 展 的 主流 。 


5.4 空间 数据 查询 


空间 数据 操作 的 特色 是 查询 的 复杂 性 和 多 样 性 ,其 中 有 些 查 询 可 以 借鉴 或 通过 关系 数 
据 操作 实现 ,但 从 整体 上 考虑 ,需要 研究 和 建立 不 同 于 关系 数据 查询 的 框架 与 技术 。 


5.4.1 空间 数据 查询 操作 


空间 数据 查询 是 指 在 SDB 中 查找 满足 一 定 条 件 的 空间 数据 对 象 的 操作 过 程 。 

由 于 空间 数据 远 比 常规 数据 复杂 ,当前 并 没有 成 熟 的 空间 数据 代数 运算 系统 ,而 各 种 查 
询 算 子 也 依赖 于 应 用 背景 ,因此 当前 空间 数据 查询 操作 大 多 采用 如 下 两 种 实现 途径 。 

(1) 基于 关系 数据 查询 。 人 允许 使 用 抽象 数据 类 型 表达 空间 数据 对 象 和 相应 的 基本 运 
算 ,而 且 查询 结果 通常 也 同 关系 数据 库 情 形 一 样 为 满足 一 定 查询 条 件 的 空间 数据 关系 表 。 
这 种 查询 方式 得 以 实现 的 前 提 是 能 够 实现 空间 数据 的 关系 存储 。 

(2) 基于 索引 查询 。 主 要 是 基于 R-tree 的 查询 ,此 时 ,空间 数据 基于 空间 数据 模型 自身 
的 形式 而 无 须 转换 为 关系 表 。 它 能 够 有 效 完成 各 种 基于 拓扑 关系 的 查询 从 而 成 为 SDB 最 
重要 和 最 基本 的 空间 数据 查询 技术 ,同时 还 可 以 用 于 时 空 查询 和 时 态 查询 。 

1. 空间 查询 类 型 

空间 数据 的 基本 类 型 要 素 是 空间 点 和 空间 区 域 , 相 应 的 查询 类 型 也 照 此 划分 。 





(1) 空间 点 查询 : 给 定 一 个 确定 的 空间 点 对 象 ,查询 所 有 包含 该 点 的 空间 数据 对 象 。 

(2) 空间 区 域 查询 : 给 定 一 个 确定 查询 区 域 ,查询 所 有 和 该 区 域 至 少 有 一 个 公共 点 的 
空间 数据 对 象 。 

空间 区 域 查询 情形 比较 复杂 ,通常 可 以 分 为 下 述 情形 。 

(1) 相交 查询 : 给 定 一 个 确定 查询 区 域 , 查 询 所 有 和 该 区 域 相 交 的 空间 数据 对 象 。 

(2) 包含 (被 包含 ) 查 询 : 给 定 一 个 确定 查询 区 域 ,查询 所 有 包含 该 区 域 (被 该 区 域 包 
含 ) 的 空间 数据 对 象 。 

(3) 相 邻 查询 : 如 果 两 个 区 域 只 有 部 分 或 全 部 相同 的 边界 而 没有 其 他 相交 部 分 , 则 称 
这 两 个 区 域 相 邻 。 相 邻 查询 就 是 给 定 一 个 确定 查询 区 域 ,查询 所 有 与 该 区 域 相 邻 的 空间 数 
据 对 象 。 

(4) 范围 查询 : 给 定 一 个 确定 查询 区 域 ,查询 所 有 与 该 区 域 距 离 小 于 给 定 值 空间 数据 
对 象 。 

(5) 最 近邻 居 查 询 : 给 定 查询 空间 对 象 ,查询 和 其 距离 最 小 的 所 有 空间 数据 对 象 。 

不 难看 出 ,上 述 各 类 查询 实际 上 都 涉及 两 个 空间 对 象 相交 的 情形 ,因此 ,相交 查询 是 空 
间 数 据 查 询 操作 的 基础 。 

2. 基于 关系 数据 的 查询 实现 

空间 数据 查询 的 实现 可 以 有 不 同 的 技术 实现 方式 。 如 果 采 用 RDB 扩充 方式 管理 空间 
数据 , 则 可 以 由 关系 数据 查询 方式 实现 相应 的 空间 数据 查询 。 例 如 ,空间 关系 的 界定 在 于 相 
应 选择 条 件 或 连接 条 件 中 出 现 空间 谓词 ,这 与 关系 代数 中 相应 情形 实际 上 并 没有 根本 上 的 
不 同 。 以 下 对 比 关系 运算 中 相关 操作 介绍 空间 选择 和 空间 连接 。 

1) 基于 关系 代数 查询 

【 例 5-1】 通过 空间 选择 完成 下 述 查 询 。 

(1) 选择 广东 省 所 有 城市 。 

or (城市 ) 

其 中 ,F 二 CENTER( 城 市 地 图 )INSIDE 广东 。 

城市 是 关系 名 ,其 中 有 属性 “城市 名 “人口 “城市 地 图 ”。 城 市 地 图 表示 市 区 及 其 周边 
地 区 , “广东” 是 一 个 区 域名 称 。CENTER 是 SDB 中 的 一 个 函数 ,用 来 计算 城市 地 区 的 中 心 
点 。 显 然 , 如 果 城 市 中 心 点 在 广东 省 区 域内 , 则 该 城市 一 定 属于 广东 省 。 

(2) 选择 流 经 广东 省 所 有 河流 。 

or (河流 ) 

其 中 F=ROUTE( 河 流 )INTERSECTION 广东 。 

“河流 ”是 关系 名 ,其 中 有 属性 “河流 流域 图 ”。ROUTE 是 SDB 中 的 一 个 函数 ,计算 河 
流 、 道 路 等 的 中 心 线 。 

(3) 选择 距离 广州 小 于 等 于 100 000 米 和 人 口 大 于 等 于 50 万 的 所 有 城市 。 

or (城市 ,广东 区 域 图 ) 

其 中 F=DIST( 城 市 名 ,广州 )< 王 100 000 AND 人 口 >=500 000。 

城市 是 个 关系 “广州 "是 城市 名 .F 中 的 第 一 个 谓词 是 空间 谓词 ,要 用 到 广东 省 地 图 。 

【 例 5-2】 通过 空间 连接 对 每 条 河流 找 出 沿 河 10 000 米 的 所 有 城市 。 

设 “ 河 流 ”“ 城 市 ”是 两 个 关系 。 在 关系 “河流 ”中 ,有 属性 “河流 流域 图 ”"。 如 果 城 市 中 心 
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距离 河流 小 于 等 于 10 000 米 , 则 该 城市 和 河流 匹配 。 可 以 用 空间 连接 表示 如 下 : 
5 名 ,城市 名 (河流 P< 城市) 

其 中 ,F==Mindist( 城 市 名 ,ROUTE( 河 流 流域 图 ))< 10 000。 

在 进行 连接 时 ,在 “河流 ”的 属性 “河流 流域 图 ”中 ,检查 各 个 城市 是 否 满足 连接 条 件 下， 
如 果 满 足 , 则 两 者 匹配 。 

2) 基于 SQL 查询 

在 SQL 语言 基础 上 可 以 扩充 空间 数据 类 型 及 其 操作 和 相应 关键 词 ,但 由 于 这 些 扩充 与 
应 用 有 关 , 目 前 还 未 形成 标准 ,以 下 列举 一 些 例子 予以 说 明 。 

【 例 5-3】 基于 SQL 完成 下 列 查 询 。 

(1) 选择 广东 省 所 有 城市 及 其 人 口 。 

SELECT 城市 名 , 人口 


FROM 城市 
WHERE CENTER( 城 市 地 图 )INSIDE 广东 省 


(2) 选择 流 经 广东 省 所 有 河流 的 河流 名 及 其 在 广东 省 境内 的 长 度 : 


SELECT 河流 名 , LENGTH( INTERSECTION( ROUTE( 河 流 流域 图 ), 广东)) 
FROM 河流 
WHERE ROUTE( 河 流 流域 图 )INTERSECTS 广东 


(3) 选择 距离 广州 小 于 等 于 100 000 米 , 人 口 大 于 等 于 50 万 的 所 有 城市 : 


SELECT 城市 名 , 人口 
FROM 城市 ,广东 区 域 图 
WHERE DIST( 城 市 名 ,广州 )<= 100 000 AND 人 口 => 500 000 


【 例 5-4】 将 例 5-2 中 查询 用 SQL 风格 表示 。 


SELECT 河流 名 ,城市 名 

FROM 河流 ,城市 

WHERE MINDIST( 城 市 名 , ROUTE( 河 流 流域 图 ) )<= 10 000 

SDB 查询 的 开销 一 般 比 关系 数据 库 大 ,特别 是 空间 谓词 求 值 的 开销 远 比 数值 或 字符 串 
的 比较 要 大 。 若 采用 顺序 扫描 方法 进行 查询 , 则 效率 就 会 很 低 ,因此 采取 更 为 有 效 的 空间 索 
引 是 十 分 必要 的 。 


5.4.2 空间 数据 索引 


传统 关系 数据 索引 技术 多 是 针对 一 维 属性 数据 提出 的 ,基本 思想 是 基于 关系 表 主 键 进 
行 相应 设计 ,难以 直接 用 于 空间 数据 索引 。 实 际 上 ,在 过 去 的 几 十 年 期 间 , 空 间 数据 索 获得 
数据 库 业 界 内 众多 学 者 关注 ,相继 提出 了 基于 空间 目标 位 置信 息 的 索引 结构 与 查询 算法 。 
其 中 以 R-tree 为 代表 的 各 类 空间 数据 索引 技术 更 成 为 空间 数据 管理 的 重要 亮点 和 基本 特 
色 。 图 5-14 简要 表示 了 空间 数据 索引 技术 的 基本 类 型 与 发 展 。 

空间 数据 具有 多 维特 征 ,相应 空间 数据 索引 是 多 维 数据 索引 ,这 有 着 与 常规 数据 索引 不 
同 的 基本 特征 。 

1. 空间 索引 特征 

从 计算 机 处 理 的 角度 来 看 ,空间 数据 具有 下 述 两 个 特点 。 
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图 5-14 空间 数据 索引 技术 的 基本 类 型 与 发 展 


(1) 空间 数据 形状 复杂 。 直 接 进行 表示 和 实现 操作 需要 多 方面 考虑 和 复杂 算法 设计 ， 
因而 属于 大 强度 "CPU 密集 型 ”。 

(2) 空间 数据 体 量 庞大 。 实 际 操作 过 程 中 通常 需要 调用 大 量 数据 进入 内 存 , 因 而 又 属 
于 高 浓度 的 “I/O 密集 型 ”。 

正 因为 如 此 ,如 果 在 查询 过 程 中 直接 进行 精确 位 置 判 断 和 相应 的 关系 查询 运算 (如 判断 
两 个 空间 数据 对 象 是 否 相交 ) ,可 能 需要 量 消耗 大 计算 机 资源 ,而 且 即 便 如 此 也 不 一 定 能 够 
实现 相关 操作 。 但 我 们 知道 ,通过 在 数据 集合 上 建立 索引 进行 数据 查询 ,实际 上 就 是 寻找 目 
标 数 据 应 当 满足 的 必要 条 件 。 而 空间 索引 结构 大 多 采用 如 前 所 述 的 空间 目标 的 近似 方法 ， 
即使 用 一 个 完全 包围 目标 的 简单 几何 图 形 ,如 矩 形 、 圆 周 或 规则 多 边 形 来 近似 表达 目标 对 
象 。 这 样 ,目标 对 象 满足 查询 的 必要 条 件 就 转化 为 相应 简单 几何 图 形 满足 必要 条 件 的 问题 。 
简单 几何 图 形 的 定位 与 运算 通常 都 相对 容易 。 因 此 ,可 以 认为 空间 形体 的 近似 表示 实际 上 
就 是 为 建立 空间 数据 索引 提供 了 技术 支撑 。 按 照 上 述 考 虑 ,实际 中 进行 空间 数据 查询 可 以 
分 为 两 个 步骤 进行 。 

1) 近似 图 形 过 滤 

通常 都 是 针对 空间 数据 的 近似 图 形 ( 如 MBR 数据 或 栅 格 数据 ) 建 立 索引 ,同时 将 所 需 
查询 信息 也 转化 为 相应 近似 图 形 ,通过 查询 信息 近似 图 形 与 索引 中 数据 近似 图 形 之 间 关 系 
取得 过 滤 后 的 近似 图 形 集合 ,此 时 排除 了 不 满足 查询 “必要 条 件 ” 的 数据 。 显 然 ,能 够 排除 掉 
的 数据 集合 大 小 与 否 是 衡量 相应 空间 数据 索引 效率 的 基本 指标 ,经 过 过 滤 后 的 数据 集合 就 
成 为 所 需 查 找 数据 集合 的 更 为 精准 和 范围 更 小 的 超 集 。 此 时 ,实际 上 是 充分 发 挥 数据 库 的 
“LO 密集 型 "特征 与 优势 。 

2) 准确 数据 筛选 

通过 基于 实际 应 用 场景 的 各 种 方法 手段 包括 非 数 据 库 查询 途径 ,如 高 级 程序 设计 语言 
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编程 方法 在 过 滤 后 集合 中 进行 精准 查找 ,这 通常 需要 建立 相应 的 CPU 密集 型 算法 ,因而 是 
一 个 相当 复杂 并 涉及 相关 领域 知识 的 过 程 。 通 常 认为 是 在 SDB 研究 范畴 之 外 ,也 就 是 说 ， 
空间 数据 索引 主要 是 讨论 近似 图 形 的 过 滤 部 分 。 当 然 , 对 于 某 些 情况 (如 图 形 数据 存储 在 关 
系数 据 库 当中 ) 也 可 对 过 滤 后 数据 集 进行 关系 数据 筛选 。 

由 上 述 分 析 可 知 ,空间 数据 索引 操作 通常 得 到 的 是 所 需 查 询 结 果 集 的 超 集 , 实 际 上 这 也 
是 解决 类 似 复 杂 问 题 的 基本 思路 ,因为 如 果 直 接 处 理 空间 数据 ,不 要 说 相应 查询 算法 极其 复 
杂 , 就 是 给 出 相应 的 数学 表示 都 难以 做 到 ,更 不 用 说 给 出 能 够 进行 机 器 处 理 的 计算 机 描述 ， 
直接 处 理 空间 数据 对 于 数据 库 而 言 应 该 是 难以 企及 的 。 尽 管 通过 空间 数据 索引 得 到 的 还 不 
是 准确 结果 ,但 其 数据 规模 会 大 大 缩小 ,能 够 有 效 缩小 查询 处 理 的 "I/O 密集 型 ”的 强度 , 进 
而 为 “CPU 密集 型 ”开辟 了 技术 实现 的 有 效 途 径 。 

现 有 空间 索引 一 般 选 取 图 形 点 和 图 形 MBR 作为 索引 对 象 。 与 通常 索引 相 比 ,空间 索 
引 具 有 如 下 特点 。 

(1) 索引 对 象 无 序 性 。 空 间 索 引 对 象 一 般 难 以 定义 明确 索引 顺序 , 当 确认 了 某 个 对 象 
在 一 个 子 空间 内 时 , 若 要 进一步 搜索 ,通常 需要 对 该 子 空间 内 的 数据 逐个 进行 遍历 比较 

(2) 索引 对 象 交叉 性 。 空 间 索 引 对 象 可 以 交叉 ,甚至 能 够 重 释 ,一 个 索引 对 象 可 以 属于 
多 个 子 空间 即 索引 结构 中 的 多 个 不 同 分 支 。 也 就 是 说 ,一 个 空间 数据 结 点 可 以 同时 属于 多 
个 目录 索引 结 点 ,因此 查询 进程 更 为 复杂 ,更 新 过 程 也 更 为 精细 。 在 查询 操作 时 ,通常 需要 
进行 多 路 搜索 并 对 建立 后 的 索引 进行 必要 的 优化 处 理 , 在 更 新 过 程 中 需要 考虑 多 重 因素 。 

2. 空间 索引 分 类 

空间 索引 通常 有 两 种 分 类 方法 : 一 种 是 基于 现 有 技术 的 实现 途径 ,此 时 空间 索引 可 分 
为 基于 树 的 索引 和 基于 Hash 方法 的 索引 两 种 类 型 ; 另 一 种 是 基于 索引 数据 对 象 自 身 特 
征 , 将 空间 索引 分 为 基于 空间 点 对 象 和 基于 空间 非 点 对 象 两 种 情形 。 

1) 基于 树 和 Hash 方法 索引 

(1) 基于 树 的 索引 主要 包括 有 基于 二 叉 树 .基于 B-Tree 和 基于 四 又 树 3 种 情形 。 

Q@ 基于 二 又 树 的 空间 数据 索引 : 如 BD-tree 和 Kd-tree 索引 等 。 

@ 基于 B-tree 的 空间 数据 索引 : 如 R-tree 索引 技术 等 。 

@ 基于 位 置 链 的 四 又 树 空 间 数据 索引 : 如 Filter-tree、Z- 排 序 等 。 

(2) 基于 Hash 方法 的 索引 主要 包括 Grid- 文 件 等 。 

2) 基于 空间 点 和 空间 非 点 对 象 索引 

空间 点 对 象 和 空间 非 点 对 象 的 区 别 在 于 : 前 者 只 有 位 置 而 没有 自身 度量 ,而 后 者 既 有 
位 置 又 有 自身 度量 。 当 然 , 在 某 种 意义 下 ,点 也 可 看 作 空 间 图 形 特例 ,因此 , 非 点 空间 图 形 索 
引 技术 也 适合 于 点 图 形 。 但 一 般 而 言 ,点 对 象 和 一 般 空间 对 象 在 技术 实现 上 有 较 大 不 同 , 需 
要 分 别 讨论 。 

(1) 空间 点 对 象 索引 。 

多 维 空间 点 索引 可 分 为 基于 二 又 树 和 基于 栅 格 两 种 情形 。 

Q@ 基于 二 又 树 的 空间 点 索引 : 基于 二 又 树 索引 结构 的 点 查询 空间 索引 主要 有 Kd- 
tree、KdB-tree 和 LSD-tree 等 ,而 Kd-tree 可 以 看 作 是 其 中 的 主要 代表 。 为 将 Kd-tree 存储 
组 织 到 外 部 存储 器 , 需 将 Kd-tree 与 B-tree 结合 ,由 此 就 产生 了 KdB-tree 方法 。 

@ 基于 栅 格 的 空间 点 索引 : 基本 思想 是 将 索引 空间 划分 为 相等 或 者 不 相等 的 一 些小 
型 栅 格 ,与 每 个 栅 格 相关 的 空间 目标 存储 在 同一 磁盘 页 内 , 栅 格 访问 地 址 可 以 直接 通过 求 数 





组 下 标 或 某 种 适当 算法 得 到 。 这 种 方法 主要 代表 是 G-file 和 R-file 技术 。 

(2) 空间 区 域 对 象 索引 。 

空间 区 域 对 象 索引 多 采用 基于 B' -tree 技术 。 

@ 基于 Bi -tree 拓展 : 由 于 Br-tree 广泛 应 用 于 数据 库 系统 并 且 具 有 优秀 表现 ,而 现 
有 SDB 在 技术 实现 方面 大 多 依赖 于 常规 数据 库 系统 ,因此 主要 空间 数据 索引 技术 大 多 基于 
BT -tree 基本 思想 。 例 如 ,著名 的 R-tree 就 是 典型 代表 。 与 Bi -tree 不 同 ,R-tree 中 的 索引 
项 有 可 能 存在 前 述 的 数据 重 毒 。 为 了 提高 系统 效率 ,需要 研究 如 何 达到 某 种 意义 下 的 “最 
小 ?重奏 ,因此 又 产生 了 R-tree 的 拓展 和 变种 R* -tree 和 R* -tree 等 

@ 转化 为 B+ -tree 处 理 : 这 些 技术 的 基本 点 也 是 将 索引 空间 进行 剖 分 ,对 所 有 前 分 后 
的 小 区 域 进行 适当 编码 ,通过 编码 将 剖 分 区 域 进行 排序 ,从 而 完成 高 维 区 域 到 有 序 编码 集合 
的 一 一 映射 。 有 了 编码 集合 ,就 可 以 应 用 B+ -tree 方法 进行 编码 的 索引 ,从 而 完成 对 高 维 对 
象 的 索引 工作 。 这 里 关键 之 处 在 于 剖 分 区 域 集 合 到 编码 集合 的 映射 。 常 用 映射 有 Z- 排 序 、 
Hilbert 曲线 和 位 置 键 方法 。 

下 面 主要 按照 空间 对 象 自身 几何 特征 讨论 相应 的 数据 索引 技术 。 


5.5 空间 点 索引 技术 


Kd-tree(K-dimension tree) 是 由 Bentley 于 1975 年 提出 的 一 种 三 2 维 的 二 又 查询 树 
(BST) 技 术 。 与 常规 二 叉 树 索引 不 同 ,Kd-tree 中 第 j 层 中 的 每 个 结 点 都 看 作 是 k 维 空间 中 
第 jmod(k) 维 坐标 空间 中 一 个 点 。 这 里 ,将 jmod(k) 看 作 是 所 谓 分 辨 器 函数 d(x) 在 层 数 j 
处 的 函数 取 值 4( 站 ,j 二 0,1,2,…,m, 其 中 m 是 给 定 二 叉 查 询 树 的 层 数 。 在 构造 和 查询 过 
程 中 汇总 ,二 叉 树 的 每 一 层 都 根据 该 层 的 分 辨 器 做 出 分 枝 决 策 。 


5.5.1 Kd-tree 和 KdB-tree 


基于 二 叉 树 索引 技术 主要 代表 有 Kd-tree 和 KdB-tree。 

1. Kd-tree 

Kd-tree 是 一 种 基于 二 叉 查 询 树 (BST) 处 理 k( 三 2) 维 空间 点 数据 的 索引 技术 ,其 特点 
是 树 中 每 个 结 点 都 表示 维 空 间 中 的 一 个 点 ,并 且 规 定 树 中 根 结 点 位 于 树 的 第 0 层 , 根 结 点 
的 子 结 点 位 于 树 的 第 1 层 ,以 此 类 推 。 

Kd-tree 的 基本 概念 是 分 辨 器 (discriminator) 函数 。 

分 辨 器 函数 : 设 需要 处 理 &( 三 2) 维 空间 的 数据 对 象 ,i 表示 Kd-tree 中 的 第 j 层 , Kd- 
tree 分 辨 器 函数 定义 为 : 4(j) 二 j mod(k)。 

由 定义 可 知 ,分 辨 器 实际 上 就 是 树 中 层 数 j 基于 空间 维 数 k 的 取 模 函数 ,函数 值 是 j 关于 
上 的 余数 ,而 该 余数 d(j) 在 0、1、2、…k 一 1 中 取 值 ,通常 4(j) 二 0 表示 上 维 空间 的 zz 轴 ,d(j) 二 
1 表示 上 维 空间 的 z 轴 ,…,d0) 二 k 一 1 表示 上 维 空间 的 zx 轴 的 语义 。 例 如 ,对 于 二 2 和 层 数 
j,d(j) 二 0 表示 二 维 空间 中 的 己 轴 即 工 轴 ,dG)=1 表示 二 维 空间 中 的 x; 轴 即 > 轴 。 

按照 下 述 Kd-tree 构建 过 程 ,分 辨 器 函数 的 作用 在 于 确定 维 区 域 的 下 一 趟 剖 分 平面 
的 选取 , 即 Kd-tree 中 每 一 层 依赖 于 其 父 结 点 层 ( 第 j 层 ) 分 辨 器 做 出 相应 的 决策 分 枝 。 

1) Kd-tree 构建 

Kd-tree 或 者 是 一 棵 空 树 , 或 者 是 一 棵 由 第 j( 宇 0) 层 开始 满足 下 述 条 件 的 二 叉 树 。 
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(1) 当 第 j 层 结 点 的 左 子 树 非 空 时 ,该 子 树 中 所 有 结 点 的 第 4(j) 维 坐标 都 小 于 结 点 
nn 的 第 d(j) 维 坐标 值 。 

(2) 当 第 j 层 结 点 的 右 子 树 非 空 时 ,该 子 树 中 所 有 结 点 第 4(j) 维 坐标 都 大 于 或 等 于 
其 父 结 点 的 第 4(j) 维 坐标 值 。 

(3) 相应 结 点 的 左右 子 树 也 是 Kd-tree。 

从 数学 上 来 讲 , 上 述 Kd-tree 的 构造 条 件 相 当 于 对 维 空间 中 区 域 Ei 不 断 通过 由 分 辨 
器 函数 选 定 的 平行 于 某 个 坐标 面 zao 二 zao 的 & 一 1 维 平面 对 Ek 进行 逐次 齐 分 。 齐 分 的 终 
止 条 件 是 实现 根据 需要 设 定 一 个 正 整 数 阔 值 c, 当 所 前 分 得 到 的 子 区 域 中 数据 点 个 数 小 于 
或 等 于 a 时 就 停止 剖 分 。 

例如 , 当 对 于 二 维 空间 数据 而 言 , 即 当 & 一 2 时 ,由 于 d(j) 二 0 表示 z 轴 ,d(j) 二 1 表示 y 
轴 , 则 此 时 就 是 当 dG)=0 时 ,用 直线 z=zo; 当 d(j)==1 时 ,用 直线 > 一 分别 对 二 维 数据 
区 域 进 行 交 替 剖 分 。 

【 例 5-5】〗 设 有 如 图 5-15 所 示 的 空间 数据 点 , 设 & 一 2,Kd-tree 构建 如 图 5-15 所 示 。 

(1) 由 7 一 0 层 的 根 结 点 A 开始 ,其 工 坐 标 为 zi: 此 时 ,d(0) 二 0 mod(2) 王 0, 因 此 取 
xz 一 z1 进 行 前 分 , 则 剖 分 线 z= 二 zi 左边 数据 点 (B.D、G) 都 是 根 结 点 (zi) 左 子 树 结 点 ,右边 
(CE、H) 是 根 结 点 (zi ) 右 子 树 结 点 。 

(2) 对 于 根 结 点 A 子 结 点 而 言 : 4(1) 二 1 mod(2) 二 1, 因 此 在 根 结 点 (zi) 左 子 树 中 选取 
B, 其 y 坐标 为 yi ,在 根 结 点 A 右 子 树 中 选取 C, 其 y 坐标 为 ys 进行 分 别 使 用 y, 和 ys 对 左 
子 树 和 右 子 树 进行 前 分 。 

(3) 再 重复 上 述 过 程 , 按 照 分 辨 器 读数 分 别 相应 进行 适当 前 分 处 理 , 最 终 完成 Kd-tree 
的 构建 。 

由 上 述 剖 分 得 到 相应 的 Kd-tree 索引 构造 ,如 图 5-16 所 示 。 




















x 


图 5-15 二 维 数据 区 域 剖 分 图 5-16 Kd-tree 索引 构造 


2) Kd-tree 数据 操作 

Kd-tree 的 数据 操作 类 似 于 二 叉 查找 树 的 相应 操作 。 

(1) 数据 查询 。 设 需要 查询 的 空间 点 为 (zo ,yo)。 由 根 结 点 zi 开始。 如果 z 二 z, 则 
向 zi 的 右 子 树 搜索 ,否则 向 z 的 左 子 树 搜索 。 不 妨 设 ro>z ,搜索 到 zi 的 右 子 树 ,此 时 ,如 
果 之 w , 则 向 ys 的 右 子 树 搜索 ,否则 向 y% 的 左 子 树 搜索 :不妨 设 mw 二 ,如 此 一 直 搜 索 到 
叶 结 点 D。 如 果 D 中 存在 (zs ,yo), 则 返回 结果 ,否则 表示 不 存在 查询 结果 。 


(2) 数据 插入 。 在 插入 结 点 时 ,可 能 引起 结 点 分 又 ,如 在 D 中 插入 一 个 空间 点 (zs ,ys )， 
则 D 中 就 有 4 个 点 , 需 将 D 再 分 为 两 个 区 域 。 例 如 ,用 z 一 zs 作为 训 分 线 ,将 D 分 为 Di 和 
D: 两 个 部 分 ,此 时 在 相应 索引 中 以 虚线 表示 的 子 树 替 代 D 结 点 。 

(3) 数据 删除 。 在 删除 结 点 时 ,可 以 允许 存在 空 的 区 域 , 因 此 不 需要 修改 数据 区 域 的 剖 
分 和 相应 索引 结构 。 

Kd-tree 具有 下 述 不 足 。 

(1) 由 于 采用 二 又 树 结构 ,索引 树 的 层次 较 多 。 

(2) 由 于 索引 形状 与 插入 次 序 相 关 , 树 结构 可 能 不 够 平衡 。 

(3) 由 于 索引 没有 按照 页 块 组 织 , 不 适合 在 外 存 中 建立 结构 。 

针对 上 述 问题 ,Rodinson 在 1981 年 提出 基于 通过 Kd-tree 和 B-tree 结合 而 成 的 KdB- 
tree 按照 页 块 组 织 索 引 , 解 决 了 索引 树 的 平衡 问题 ， Hentich 等 人 也 于 1989 年 提出 了 LSD- 
tree* 改 变 了 按照 位 数 交 替 训 分 数据 空间 的 限制 ,也 可 保持 索引 树 的 平衡 。 

2. KdB-tree 

B-tree(Balanced multi-way tree, 平 衡 多 分 树 ) 和 B+ -tree 的 基本 差异 之 一 就 是 前 者 索 
引 结 点 也 是 数据 结 点 ; 而 后 者 的 索引 结 点 只 具有 导航 意义 ,数据 都 存储 在 叶 结 点 当中 。 这 
种 将 索引 结 点 和 数据 结 点 分 开 处 理 的 方法 可 以 有 效 提升 索引 的 数据 操作 性 能 。 正 是 基于 这 
样 的 考虑 ,借鉴 B* -tree 思想 ,就 可 以 类 似 于 Br-tree 到 B” -tree 的 拓展 那样 ,将 Kd-tree 推广 
到 KdB-tree。 

KdB-tree 的 基本 点 是 非 叶 结 点 ( 根 结 点 和 内 部 结 点 ) 都 为 索引 结 点 并 称 为 区 域 页 
(Region Pages) ,而 叶 结 点 为 数据 结 点 并 称 为 点 页 (Point Pages) 。 也 就 是 说 ,点 页 存储 点 数 
据 目 标 ,区 域 页 存储 索引 子 空 间 描述 及 指向 下 层 页 的 指针 。 

KdB-tree 的 一 个 实例 如 图 5-17 所 示 。 其 中 ,前 分 过 程 与 Kd-tree 相同 ,只 是 剖 分 坐标 
选取 不 同 ,如 为 方便 记 , 可 以 采用 相应 的 等 分 法 。 在 图 5-17(a) 中 ,首先 选取 适当 x 坐标 将 
所 给 数据 结 点 剖 分 为 是 sl 和 s2 两 个 区 域 页 ; 其 次 对 sl 和 s2 分 别 选 取 适 当 y 坐标 训 分 为 
sl1、s12 和 s21、s22 等 的 子 区 域 页 ;再 次 对 s12 前 分 为 s121 和 s122 等 的 子 区 域 页 ; 最 后 就 
得 到 如 图 5-17(b) 所 示 的 索引 树 示 意图 。 

由 此 可 知 ,KdB-tree 借鉴 了 B” -tree 的 特点 ,数据 扇 出 大 , 树 高 比较 小 ,对 均匀 分 布 数据 
效果 好 。 不 足 在 于 : 一 块 空间 中 无 论 有 无 数据 都 会 被 索引 ; 频繁 向 下 分 裂 导致 空间 利用 率 
低 ; 对 非 均匀 分 布 数据 效果 较 差 。 

KdB-tree 主要 用 于 点 查询 ,但 也 可 用 于 区 域 查询 。 

(1) 点 匹配 查询 : 需要 遍历 树 的 某 一 个 分 支 , 即 访问 所 有 索引 子 空间 包含 该 查找 点 的 
区 域 页 直到 某 个 点 页 ,最 后 提取 点 页 中 的 点 加 以 判断 。 

(2) 区 域 查询 : 需要 访问 所 有 索引 空间 与 查找 区 域 相交 的 区 域 页 即 点 页 ,查找 路 径 往 
往 是 多 条 。 

在 KdB-tree 中 实施 插入 结 点 时 ,需要 首先 查找 该 结 点 应 当 插入 的 点 页 ,如 果 该 页 未 满 ， 
则 简单 插入 该 点 ; 如 果 该 页 已 满 , 则 需要 分 裂 该 页 ,即将 该 点 页 一 分 为 二 ,并 使 这 两 个 点 页 
包含 同样 多 的 点 。 当 点 页 分 裂 时 ,需要 在 上 级 区 域 页 中 增加 一 项 。 由 此 可 知 ,点 页 分 裂 可 能 
导致 父 区 域 页 分 裂 。 同 理 , 区 域 页 分 裂 也 可 向 上 传播 直至 根 结 点 。 所 以 ,KdB-tree 是 一 种 
平衡 树 。 
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(b) 索引 树 示意 图 
5-17 ”KdB-tree 的 一 个 实例 


5.5.2 G-tree 索引 


G-tree(grid tree) 是 一 种 基于 B-tree 的 动态 索引 技术 ,其 基本 要 求 是 可 动态 地 随 数据 变 
化 而 进行 相应 消长 ,并 在 消长 过 程 中 保持 本 身 平 衡 。 

如 前 所 述 ,B-tree 常用 的 扩充 形式 是 B+ -tree。 给 定 适当 的 上 值 ,B* -tree 有 下 述 限 制 和 
规定 。 

(1) 每 个 结 点 最 多 有 2k 个 索引 键 值 ,索引 键 值 也 称 为 B* -tree 的 秩 。 

(2) 根 结 点 至 少 有 一 个 索引 键 值 ,其 他 结 点 至 少 有 个 索引 键 值 。 

(3) 非 叶 结 点 如 果 有 m 个 索引 键 值 ,就 有 x 十 1 个 子 结 点 。 

(4) 所 有 叶 结 点 位 于 树 的 同一 级 上 , 树 是 平衡 的 。 

G-tree 组 成 类 似 B* -tree 的 结构 ,用 于 空间 点 对 象 的 查询 。 

下 面 以 二 维 空间 为 例 说 明 G-tree 原理 。 其 方法 可 以 推广 到 任意 维 空间 。 

1.G-tree 构造 

G-tree 与 Kd-tree 类 似 , 对 数据 空间 采用 按 维 数 轮 换 交 蔡 对 空间 进行 剖 分 ,但 不 同 的 是 
采取 平均 痢 分 方式 。 为 了 突出 原理 ,简化 叙述 ,以 下 将 所 涉及 的 属性 值 都 规范 化 为 {10,1} 中 
的 值 ,同时 要 求 剖 分 后 每 个 区 域 中 包含 的 数据 点 不 能 超过 两 个 ,如 果 超 过 两 个 , 则 按 循 环 交 


替 的 次 序 继续 前 分 空间 ,直至 满足 每 个 区 域 不 超过 两 个 点 的 要 求 为 止 。 

在 图 5-18(a) 中 , 设 平面 上 开始 有 3 个 点 ,按照 x 方向 等 分 为 A、B 两 个 区 域 ,A 中 有 两 
个 点 ,B 中 有 一 个 点 ,满足 要 求 。 

如 果 在 A 中 又 插入 两 个 点 ,由 于 A 中 有 4 个 点 ,A 需要 剖 分 。 按 照 剖 分 法 则 ,A 首先 按 
照 y 方 向 等 分 为 上 下 两 区 域 ,其 中 C 中 只 有 一 个 点 ,满足 要 求 。 但 A 的 下 半 部 仍 有 3 个 点 ， 
须 进 一 步 剖 分 。 先 按照 zx 方向 等 分 ,其 中 右 半 部 下 为 空 ,因此 左 半 部 须要 进一步 剖 分 为 D、 
E 两 区 域 ,其 中 DD 中 有 两 个 点 ,E 中 有 一 个 点 , 剖 分 完毕 ,如 图 5-18(b) 和 (c) 所 示 。 
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图 5-18 G-tree 空间 剖 分 


图 5-19 表示 各 个 区 域 的 二 进 制 编码 ,其 编码 规则 与 栅 格 的 Z 次 序 编码 一 致 。 为 了 清晰 
起 见 , 略 去 其 中 的 点 。 

G-tree 的 这 种 空间 剖 分 策略 具有 下 述 特点 。 

(1) 区 域 二 进 制 编码 构成 全 序 。 

(2) 区 域 集 合 构成 平面 的 一 个 划分 。 

(3) 区 域 二 进 制 编 码 的 位 数 越 多 , 则 该 区 域 越 小 , 它 是 其 编码 前 绥 所 代表 的 区 域 的 子 空 
间 , 如 0101 是 01 的 子 空间 。 

剖 分 区 域 由 其 编码 组 成 类 似 于 按 B+ -tree 的 生成 方式 (由 叶 结 点 向 上 ) 构 建 G-tree。 在 
图 5-20 中 , 叶 结 点 中 每 个 索引 项 可 用 二 元 组 (B,P) 表 示 。B 代表 区 域 的 二 进 制 码 ,P 是 指 
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图 5-19 剖 分 区 域 编码 过 程 


针 , 它 指向 一 个 页 ( 块 ), 页 中 存储 该 区 域 中 点 所 对 应 的 数据 。 例 如 ,在 多 属性 查询 中 ,这 些 数 
据 是 指 该 区 域 中 所 有 点 所 对 应 的 元 组 集 。 这 些 元 组 应 簇 集 存放 。 为 了 清晰 起 见 , 在 图 5-20 
中 ,每 个 结 点 最 多 只 能 有 两 个 索引 项 ,最少 应 该 有 一 个 索引 项 。 在 实际 的 G-tree 中 ,每 个 结 
点 是 一 页 ( 块 ) ,其 最 大 索引 项 的 个 数 要 远大 于 此 数 ,但 这 种 简化 并 不 影响 原理 的 说 明 。 


图 5-20”G-tree 实例 


2.G-tree 查询 
G-tree 查询 按 下 述 两 个 步骤 进行 。 
1) 查询 数据 编码 


在 查询 某 点 时 , 先 将 该 点 的 坐标 (zs,ya) 转 换 成 它 所 在 区 域 的 二 进 制 编码 。 由 于 在 查询 
前 并 不 知道 平面 前 分 情况 ,需要 在 G-tree 中 保留 一 个 动态 变化 参数 L。L 表示 G-tree 中 当 
前 区 域 编码 位 数 的 最 大 值 ,如 在 图 5-19 中 工 二 4。 因 此 , (xz, ya) 所 在 的 区 域 编码 最 多 不 超 
过 4 位 ,可 以 先 按照 4 位 生成 。 设 待 查 点 的 坐标 为 (0.2,0. 8), 则 其 所 在 区 域 的 编码 如 表 5-1 
所 示 , 即 其 4 位 二 进 制 编码 为 0101。 
表 5-1 (0.2,0.8) 所 在 区 域 编码 的 生成 




















比 和 较 0/1 编 码 
0.2<0.5 0 0 
0.8>0.5 01 
0.2<0,25 0 010 
0. 8>0.75 0101 


2) 使 用 编码 前 级 进行 查询 

从 图 5-18(c) 可 以 看 出 ,图 中 并 无 编码 为 0101 的 区 域 。 这 表示 没有 前 分 出 编号 为 0101 
的 独立 小 区 域 , 它 包含 在 其 他 区 域 中 ,包含 它 的 编码 可 从 0101 的 前 级 中 去 寻找 。 显 然 ,包含 
在 编码 为 01 的 区 域 中 , 即 C 中 。 因 为 C 没有 再 细 分 ,所 以 0101 后 两 位 是 多 余 的 。 在 检索 
G-tree 时 ,如 果 发 现 G-tree 中 的 比较 值 等 于 生成 编码 的 前 级 , 即 以 此 前 级 代替 此 生成 编码 
进行 检查 。 以 图 5-20 为 例 ,首先 用 0101 对 根 结 点 的 3 个 分 支 进行 判别 。01 取代 0101 进行 
比较 ,从 而 选中 第 二 分 支 ,由 此 追踪 到 第 二 叶 结 点 。 从 索引 项 01 的 指针 ,可 以 查 得 C 中 所 
有 点 对 应 的 数据 。 从 图 5-18(b) 可 以 看 出 ,C 中 并 无 (0.2,0. 8) 这 样 的 点 。 因 此 ,查询 结果 是 
无 此 点 。 

3.G-tree 更 新 

G-tree 更 新 包括 插入 更 新 和 删除 更 新 。 

1) G-tree 插入 

在 插入 时 ,如 果 插 入 后 没有 一 个 区 域 超过 2 点 , 则 不 需要 调整 G-tree, 和 否则 ,那些 超过 2 点 
的 区 域 需要 分 裂 ,而 且 这 种 分 裂 可 能 一 直 传播 到 根 。 设 在 图 5-18 中 ,插入 一 点 (0.2,0. 3), 按 
照 图 5-19 的 方式 生成 其 所 在 区 域 编码 为 0001, 即 区 域 D。 区 域 D 中 插入 点 (0.2,0.3) 以 后 ， 
域 中 增 至 3 点 , 按 分 裂 规则 应 按照 xz 方向 分 裂 为 左右 两 个 区 域 ,其 编码 分 别 为 00010 和 
00011, 则 图 5-20 中 最 左边 的 叶 结 点 溢出 ,应 分 裂 为 两 个 叶 结 点 , 叶 结 点 因而 增加 到 4 个 。 
原来 的 根 结 点 也 要 分 裂 , 并 产生 新 的 根 结 点 。G-tree 从 两 级 增加 为 三 级 。 插 人 后 的 G-tree 
如 图 5-21 所 示 。 
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图 5-21 插入 点 (0.2,0.3) 后 的 G-tree 









































2) G-tree 删除 

在 删除 时 ,由 于 G-tree 允许 空 区 域 存在 ,因此 ,只 须 删 除 要 删除 的 点 ,对 G-tree 本 身 一 
般 不 需要 调整 。 如 果 出 现 两 个 空 区 域 , 其 编码 只 是 最 后 一 位 不 同 , 即 一 个 为 0, 另 一 个 为 1， 
这 两 个 空 区 域 可 以 合并 成 一 个 大 的 空 区 域 。 这 样 的 合并 工作 ,可 以 在 删除 时 进行 ,也 可 以 留 
待 重 构 G-tree 时 进行 。 





5.6 空间 区 域 索 引 技 术 


数据 库 系统 主要 是 为 处 理 海量 数据 而 设计 研发 的 ,而 数据 处 理 的 一 个 基本 要 求 就 是 迅 
捷 高 效 ,这 需要 合理 安排 数据 的 物理 存储 结构 ,建立 适当 的 索引 技术 。 
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如 前 所 述 ,空间 非 点 对 象形 状 复杂 ,通常 需要 采用 “近似 ”图 形 进 行 描 述 ,即将 索引 结构 
按照 一 个 或 多 个 规则 的 更 加 简单 的 空间 图 形 ( 称 为 空间 码 ) 来 管理 。 其 中 一 个 最 基本 的 情形 
就 是 使 用 前 述 的 最 小 限定 矩形 MBR( 外 包 和 矩形 ) , 即 内 含 涉 及 的 空间 对 象 并 且 边 与 坐标 轴 平 
行 的 最 小 矩形 。 

空间 索引 实质 是 在 响应 一 项 查询 请 求 时 ,通过 自身 结构 以 获取 该 空间 中 所 有 对 象 的 一 
个 满足 相应 查询 “必要 条 件 ” 的 关联 子 集 , 并 返回 该 关联 子 集 。 


$5.6.1 R-tree 


下 面 讨论 基于 测度 非 零 的 空间 图 形 的 R-tree 技术 。 

1. R-tree 构造 

空间 查询 对 象 可 以 分 为 “大 小 ”度量 (测度 ) 为 零 和 不 为 零 两 种 情形 。 测 度 非 零 空间 对 象 
一 般 用 最 小 限定 矩 形 MBR 近似 表示 。R-tree 由 Guttmann 于 1984 年 提出 ,可 以 看 作 是 
B1+ -tree 在 高 维 情形 下 的 推广 。R-tree 以 MBR 为 基本 检索 对 象 。 与 B+ -tree 类 似 , R-tree 
也 是 一 种 平衡 多 分 树 ,但 相对 于 B+ -tree 而 言 , 两 者 还 具有 下 述 差异 。 

(1) Br -tree 通过 逐 级 比较 索引 项 中 的 索引 值 搜索 查询 对 象 ; R-tree 是 通过 逐 级 缩小 
搜索 空间 范围 来 定位 查询 对 象 。 

(2) Br” -tree 中 的 数据 项 具有 顺序 结构 ; R-tree 中 的 数据 项 没有 顺序 ,而 且 可 以 相互 重 和 。 

如 前 所 述 , 当 一 个 MRB 包含 有 其 他 MRB 时 ,就 称 其 为 目录 MRB, 否则 称 为 对 
象 MRB。 

下 面 给 出 R-tree 的 基本 描述 。 

给 定 适当 的 整数 参数 m 和 M(m < 二 M) ,R-tree(Rectangle tree) 是 其 结 点 满足 如 下 约 
束 条 件 的 一 种 平衡 多 分 树 。 

@ 除了 R-tree 是 只 具有 根 结 点 的 “ 根 树 ” 情 形 , 其 余 所 有 R-tree 根 结 点 至 少 有 两 棵 子 
树 索引 项 。 

@ R-tree 的 每 个 非 叶 结 点 包含 有 mm 一 M 个 索引 项 。 

@ 在 上 述 约束 条 件 下 ,R-tree 保持 树 的 平衡 。 

对 于 上 述 定 义 可 以 作 如 下 说 明 。 

(1) R-tree 中 每 个 索引 项 为 二 元 组 (r,p) ,其 中 r 为 索引 项 表示 的 MBR,p 为 相应 指针 。 
对 于 叶 结 点 ,p 指向 r 所 近似 表示 的 空间 数据 对 象 。 在 非 叶 结 点 ,p 指向 r 的 子 结 点 。 

(2) R-tree 中 一 个 结 点 最 少 有 m 个 索引 项 ,最 多 可 有 M 个 索引 项 。m 一 般 为 2 一 M/2。 
由 于 R-tree 在 分 裂 时 涉及 区 域 的 优化 与 调整 ,开销 较 大 ,为 了 减少 分 裂 概 率 ,m 宜 选 择 适 当 
数值 。 实 验 结果 表明 ,m 在 0.4M 左右 可 以 获得 较 好 的 性 能 。 

(3) R-tree 中 一 个 对 象 MBR 可 位 于 多 个 不 同 目录 MBR( 外 包 和 矩形 ) 之 中 ,此 时 ,只 需 选 
取 一 个 目录 MBR 包含 该 对 象 MBR 即 可 。 

图 5-22(a) 表 示 了 MBR 的 取 法 ,5-22(b) 是 其 对 应 R-tree 构建 。 

2. R-tree 查询 

给 定 查询 矩形 R, 二 {Czi,y1) (zz,y2)) ,其 中 (zy)、 (Cryy) 分 别 为 Rs 的 左下 和 右 
上 角 顶 点 坐标 ,为 了 叙述 简便 ,以 下 假设 需要 查询 Re 包含 的 空间 对 象 。 基 于 R-tree 查询 步 
又 可 以 表述 如 下 。 
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5-22 MBR 和 R-tree 


(1) 由 R-tree 根 结 点 开始 : 如 果 根 结 点 中 数据 项 本 身 就 是 对 象 MBR ,由 于 MBR 的 无 
序 性 ,此 时 需 逐 个 检查 每 个 对 象 MBR 是 否 包含 在 Re 中 ,如 果 包 含 在 Re 中 , 则 就 是 选中 对 
象 之 一 。 设 对 象 MBR 为 Re={(zs ,ys),(ziyy)) ,其 中 (zs,ys)、 (zyy) 分 别 为 Ro 的 左下 
和 右上 角 坐 标 。R。 包 含 在 Re 中 条 件 为 : 

Ta 人 TI Ny Nz Er Ny ys 

(2) 如 果 根 结 点 中 索引 项 是 目录 MBR ,需要 逐个 检查 其 中 目录 MBR 是 否 与 Re 相交 。 
如 果 相 交 , 则 此 目录 MBR 中 的 对 象 MBR 就 有 可 能 包含 在 Re 中 , 沿 此 目录 MBR 继续 搜 
索 ; 如 果 目 录 MBR 与 Re 不 相交 , 则 其 中 对 象 MBR 不 可 能 包含 在 Rs 中 ,不必 沿 此 目录 继 
续 搜 索 。 

(3) 当 搜 索 到 叶 结 点 ,与 前 述 相 同 , 需 要 逐个 检查 其 中 对 象 MBR 是 否 包含 在 Re 中 。 需 
要 注意 的 是 , 当 目 录 MBR 之 间 有 重 全 时 ,即使 重 释 区 中 对 象 只 属于 一 个 目录 MBR ,但 要 判 
定 其 属于 哪 一 个 目录 MBR ,仍然 需要 多 路 搜索 。 

3. R-tree 更 新 

作为 B+ -tree 的 高 维 拓展 ,R-tree 的 重要 特色 在 于 : 插入 更 新 和 删除 更 新 过 程 中 需要 保 
持 树 的 平衡 。 

1) 插入 更 新 

设 (R ,p) 是 待 插入 对 象 MBR 及 指向 对 象 指 针 的 二 元 组 。 由 于 空间 对 象 本 身 无 序 , 因 
此 与 B -tree 不 同 ,插入 哪个 叶 结 点 及 在 叶 结 点 中 的 次 序 不 是 唯一 的 。R1 插 入 哪个 叶 结 点 
关键 在 于 是 它 属 于 哪个 目录 MBR。 

(1) 目录 MBR 的 选择 。 实 际 问题 中 ,Ri 可 能 与 多 个 目录 MBR 相交 或 相 邻 ,这 些 目 录 
MBR 只 要 其 中 的 对 象 MBR 不 超过 目录 MBR 中 的 最 大 值 ,经 过 必要 扩大 后 ,都 可 被 选 来 覆 
盖 Ri 。 因 此 ,Ri 插入 方式 可 能 有 多 种 选择 ,一 般 来 说 ,需要 进行 必要 的 优化 。R-tree 采用 较 
简单 的 优化 准则 , 即 选择 插入 后 面积 扩大 最 小 的 目录 MBR 去 覆盖 ; 车 有 两 个 或 多 个 目录 
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MBR 都 满足 此 要 求 , 则 选择 其 中 面积 之 一 即 可 。 

(2) 叶 结 点 的 处 理 。 目 录 MBR 选 定 以 后 ,就 可 在 其 子 结 点 中 确定 插入 对 象 所 在 的 叶 结 
点 。 如 果 叶 结 点 中 有 空 , 则 可 直接 插入 ,插入 完成 ; 如 果 叶 结 点 在 插 和 人 后 溢出 , 则 需要 分 裂 
为 两 个 。 由 于 叶 结 点 中 数据 项 无 序 , 叶 结 点 中 数据 项 重新 分 组 方式 可 有 多 种 选择 ,这 在 许多 
R-tree 改进 方案 中 都 有 讨论 。 

(3) 分 裂 的 传播 。 叶 结 点 分 裂 后 ,需要 生成 两 个 目录 MBR ,覆盖 分 裂 后 的 两 组 对 象 
MBR ,以 取代 原来 的 目录 MBR。 这 就 意味 着 叶 结 点 的 上 一 级 结 点 要 增加 一 个 索引 项 。 这 
又 可 能 导致 该 结 点 分 裂 , 这 种 分 裂 可 传播 至 根 。 根 分 裂 后 , 树 就 要 增加 一 级 。 

插入 更 新 是 R-tree 相应 数据 操作 中 的 最 大 开销 项 ,对 索引 性 能 影响 很 大 ,因而 是 R- 
tree 改进 方案 中 的 研究 重点 。 

2) 删除 更 新 

删除 更 新 通常 有 下 述 步骤 。 

(1) 搜索 删除 。 在 删除 某 个 对 象 MBR 时 , 先 按照 其 对 象 MBR ,从 根 搜索 到 它 所 在 的 叶 
结 点 ,从 叶 结 点 中 将 其 删除 。 

(2) 平衡 调整 。 如 果 删 除 后 叶 结 点 中 对 象 MBR 的 个 数 仍然 大 于 最 小 值 , 则 该 叶 结 点 保 
持 不 变 。 否 则 ,在 删除 该 对 象 之 后 ,可 能 引起 叶 结 点 下 溢 (underflow)。 在 此 情况 下 ,可 将 此 
叶 结 点 及 其 对 应 目录 MBR 删除 , 且 将 其 中 剩余 的 对 象 MBR 及 其 指向 对 象 MBR 的 指针 重 
插入 树 中 。 这 实际 上 相当 于 把 删除 了 的 叶 结 点 中 的 剩余 对 象 MBR ,分摊 到 与 其 相交 或 相 邻 
的 其 他 目录 中 。 

(3) 下 溢 处 理 。 目 录 对 象 MBR 的 删除 也 会 引起 其 所 在 的 非 叶 结 点 的 下 溢 ,从 而 导致 该 
非 叶 结 点 的 删除 。 其 中 ,剩余 的 目录 MBR 对 象 可 以 重 搬 到 其 他 同 级 的 非 叶 结 点 中 。 这 个 
过 程 有 可 能 继续 传播 到 根 结 点 的 删除 。 在 根 结 点 删除 时 ,如 果 其 中 只 有 一 个 索引 项 , 则 可 以 
直接 删除 ,无 须 重 插入 ,此 时 R-tree 降低 一 级 。 在 重 搬入 的 过 程 中 也 可 能 引起 结 点 的 溢出 ， 
如 除 被 删除 的 叶 结 点 外 ,其 他 叶 结 点 又 分 裂 。 通 过 这 个 过 程 ,不 但 可 以 消除 叶 结 点 的 下 洲 ， 
而 且 在 一 定 程度 上 改变 了 叶 结 点 中 索引 项 分 配 不 均匀 的 情况 。 这 在 效果 上 相当 于 对 R-tree 
的 一 次 合理 重组 。 

R-tree 是 最 早 提出 的 大 小 非 零 空间 对 象 的 索引 结构 。 由 于 R-tree 具有 B+ -tree 的 平衡 
性 特点 ,适用 于 多 维 空间 对 象 的 检索 。 它 一 经 提出 就 受到 广泛 关注 ,在 SDBS 中 得 到 较 广 的 
应 用 。 针 对 R-tree 的 不 足 , 人 们 也 提出 了 不 少 R-tree 变种 ,目标 主要 集中 在 R-tree 更 新 性 
能 的 改善 上 。 


$5.6.2 R’-tree 


与 B'-tree 情形 类 似 , 在 数据 动态 管理 过 程 当中 保持 索引 树 的 平衡 性 是 R-tree 的 关键 
所 在 。 其 中 , 结 点 插入 算法 是 更 新 过 程 中 的 基本 技术 ,而 在 删除 过 程 中 出 现 的 结 点 下 洲 引 发 
的 结 点 重组 从 某 种 意义 上 也 可 以 看 作 是 一 种 结 点 插入 过 程 。 

B”* -tree 中 的 数据 项 按照 键 值 有 序 ,因此 数据 插入 是 按照 所 给 定 的 顺序 插入 到 唯一 确 
定 的 位 置 。 但 R-tree 中 MBR 难以 定义 顺序 , 取 定 其 插入 位 置 只 能 采用 循 照 树 中 父子 结 
点 路 径 的 方式 确定 而 难以 有 其 他 选择 的 可 能 。 由 于 R-tree 中 MBR 的 重奏 性 质 ,存在 着 
相应 的 多 条 确定 位 置 的 插 和 路径, 因此 也 就 具有 多 个 不 同 的 同 级 插入 位 置 。 这 样 ,相对 


于 Bf+ -tree, 更 为 复杂 的 MBR 重叠 性 反而 为 寻找 “更 优 ?的 插入 位 置 提供 了 可 能 。Beckmann 
等 人 正确 利用 了 R-tree 的 “ 重 琶 ”特征 ,在 1990 年 提出 了 基于 插入 优化 的 R-tree 改进 方案 
也 就 是 著名 的 R* -tree。 

R" -tree 继承 了 R-tree 的 基本 结构 ,突出 之 处 就 是 针对 R-tree 自身 MBR 可 能 重生 的 
特征 对 相应 插入 算法 进行 了 优化 改进 ,显著 提高 了 索引 树 的 基本 性 能 ,其 中 的 分 析 设计 相当 
精细 也 非常 精彩 。 

从 逻辑 表述 角度 考虑 ,R* -tree 的 这 种 优化 改进 可 以 分 为 :“ 插 入 结 点 过 程 中 的 优化 策 
略 ” 和 * 删 除 过 程 中 结 点 强行 重新 插入 和 结 点 分 裂 优化 ?两 种 情形 。 

1. 插入 结 点 优化 策略 

在 插入 位 置 的 多 路 选择 过 程 中 ,R-tree 中 对 象 MBR 所 需 插入 目录 MBR 的 选取 着 眼 点 
为 是 否 遵循 “最 小 性 原则 ”。 

最 小 性 原则 : 在 一 个 结 点 中 插入 新 的 对 象 MBR 后 ,所 有 包含 该 结 点 的 目录 MBR 都 可 
能 需要 进行 “扩大 ”, 其 “扩大 ”程度 取决 于 新 插入 的 对 象 MBR。 常 规 R-tree 选择 使 得 其 目 
录 MBR* 扩 大 ”最 小 的 结 点 作为 宿主 而 将 新 的 结 点 插入 其 中 。 

与 B+ -tree 相同 ,R-tree 中 的 非 叶 结 点 中 的 索引 键 值 实际 上 只 起 到 导航 作用 ,真正 需要 
查询 的 数据 都 存储 在 叶 结 点 当中 。R-tree 中 同 级 结 点 对 应 的 目录 MBR 都 可 能 存在 着 重 
从, 并且 各 个 MBR 中 也 存在 着 大 小 不 等 的 未 含 子 结 点 MBR 的 空白 空间 即 “ 死 空间 ”。 这 种 
重合 和 死 空间 对 于 非 叶 结 点 查询 处 理 影响 不 大 ,但 对 在 叶 结 点 中 进行 实际 对 象 MBR 的 查 
询 性 能 却 具有 很 大 影响 ,需要 进行 精心 处 理 。 

这 里 问题 的 要 害 就 在 于 R-tree 对 非 叶 结 点 和 叶 结 点 采用 同一 种 插入 准则 而 没有 充分 
考虑 到 前 者 “导航 查找 ?和 后 者 “数据 查找 ”的 不 同 查询 特性 。 

针对 这 种 情形 ,R" -tree 采取 了 下 述 插入 结 点 优化 策略 。 

(1) 对 于 非 叶 结 点 中 的 索引 键 值 插入 : 依然 采用 R-tree 的 “最 小 性 原则 ”。 

(2) 对 于 叶 结 点 中 的 实际 数据 插入 : 选择 插入 后 使 其 日 录 MBR 与 其 他 目录 MBR 重 释 
面积 之 和 最 小 的 叶 结 点 。 

(3) 对 于 有 多 个 叶 结 点 满足 “(2)” 的 情形 : 对 这 些 叶 结 点 采用 R-tree“ 最 小 性 原则 ”, 即 
选择 其 中 目录 MBR 在 插入 后 面积 扩大 最 小 的 叶 结 点 。 

按 上 述 优化 准则 选 定 当前 插入 结 点 后 ,如果 当前 结 点 为 空 , 则 将 索引 项 直接 插入 到 该 结 
点 中 。 如 果 插 入 当前 结 点 后 发 生 洲 出 ,R" -tree 采用 与 R-tree 不 同 的 溢出 方法 ,不 是 立即 分 
裂 结 点 ,而 是 根据 实际 情形 设法 避免 分 裂 。 而 在 必须 分 裂 结 点 时 ,R* -tree 也 提供 较 好 的 分 
裂 优化 策略 。 

2. 重新 插入 与 分 裂 优化 策略 

结 点 溢出 后 ,需要 进行 结 点 重组 , 即 或 者 重新 构建 一 个 新 结 点 ,或 者 将 原来 结 点 中 的 部 
分 结 点 插入 到 同 级 的 其 他 结 点 当中 。 

在 B-tree 中 , 结 点 按照 数据 键 值 有 序 ,同样 一 批 数据 , 当 按照 不 同 工 作 顺序 插入 到 索引 
树 中 时 ,由 于 需要 按照 自身 的 键 值 顺序 进入 到 确定 的 插入 位 置 ,插入 先后 的 次 序 不 会 对 索引 
性 能 产生 大 的 影响 。 但 R-tree 就 有 所 不 同 , 由 于 其 插入 位 置 的 多 路 可 选择 性 ,如 何 组 建新 
的 目录 MBR 就 与 对 象 MBR 插入 先后 次 序 产 生 很 大 关联 。 同 样 一 批 对 象 MBR 按照 不 同 
的 进入 次 序 可 以 组 建 完全 不 同 的 R-tree. 这 些 R-tree 彼此 之 间 具 有 相当 大 的 性 能 差异 。 在 
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R-tree 需要 分 裂 的 情况 下 对 其 进行 适当 的 “局 部 ?调整 ,这 就 相对 于 常规 情形 增加 了 索引 树 
的 更 新 开销 ,但 从 数据 查询 的 快速 响应 性 考虑 ,这 种 “额外 ”开销 应 当 是 人 们 可 以 接受 的 ,上 毕 
竟 数 据 库 主要 是 用 来 查询 的 ,其 更 新 工作 作为 查询 的 “前 期 ”开销 尽管 加 大 了 ,但 对 于 “当前 ” 
的 查询 效率 却 得 到 了 较 大 提升 。 

R* -tree 正 是 从 上 述 分 析出 发 ,将 R-tree 只 在 下 溢出 时 采用 的 方法 推广 到 插入 而 产生 
结 点 溢出 引发 分 裂 的 情形 ,采取 了 不 同 于 R-tree 简单 重组 的 优化 改进 策略 。 

1) 重新 插入 的 基本 思想 

当 结 点 发 生 溢出 时 ,R* -tree 并 不 立即 分 裂 该 结 点 ,而 是 从 溢出 结 点 中 抽取 出 约 pX M 
个 被 索引 的 MBR 重新 插入 到 其 他 同 级 结 点 中 ,其 中 p 是 可 通过 实验 确定 的 小 于 1 的 正 数 ， 
通常 是 取 在 0. 3 左右 。 

为 从 溢出 结 点 中 选取 oX M 个 被 索引 MBR ,可 将 溢出 结 点 中 各 MBR 按 其 图 形 中 心 
与 该 结 点 MBR 中 心 的 距离 降序 排列 。 首 先 选取 处 于 溢出 结 点 MBR 边缘 上 的 被 索引 
MBR 进行 重 插入 ,这 是 由 于 边缘 上 的 被 索引 MBR 在 重 插入 时 有 可 能 插入 邻近 的 结 点 
MBR 当中 。 当 pX M 个 索引 项 中 有 一 个 成 功 地 插入 到 同 级 的 其 他 结 点 中 , 则 该 结 点 就 可 
免除 分 裂 。 

按照 相关 统计 ,在 常规 情况 下 ,R-tree 结 点 平均 装 满 程 度 约 为 70%。 从 溢出 结 点 中 
抽取 出 大 约 30% 的 被 索引 MBR ,逐个 找到 比较 合理 的 同 级 结 点 位 置 , 从 而 可 以 部 分 地 纠 
正 由 于 随机 插入 MBR 所 引起 的 数据 在 索引 中 的 不 合理 分 布 。 实 际 上 ,重新 插入 到 其 他 
同 级 结 点 后 ,其 装 满 程度 可 降 至 这 一 统计 平均 值 ,因此 成 为 R-tree 提高 性 能 的 有 效 
措施 。 

由 于 索引 树 特性 ,并 不 是 对 于 所 有 情形 都 能 实施 重新 插入 。 

(1) 重新 插入 前 提 : 出 现 溢出 的 结 点 应 该 具有 相应 的 同 级 结 点 ,而 根 结 点 的 唯一 性 决 
定 其 没有 任何 同 级 结 点 ,因此 ,对 于 根 结 点 的 溢出 情形 不 能 实施 重新 插入 。 

(2) 避免 出 现 循环 : 对 于 R* -tree 中 除了 根 结 点 的 其 他 各 级 结 点 溢出 情形 都 可 首先 考 
虑 使 用 重新 插入 而 不 是 立即 分 裂 。 但 重新 插入 可 能 引起 其 他 同 级 结 点 溢出 ,由 此 引发 新 的 
重新 插入 ,如 此 下 去 也 许 会 无 限 循环 。 为 避免 这 种 情况 发 生 ,R" -tree 规定 ,在 同一 级 结 点 
中 只 有 当 发 生 第 一 次 溢出 时 才能 施行 重新 插入 。 

(3) 不 能 重 插入 情况 处 理 : pXM 个 被 索引 MBR 在 重新 插入 时 有 可 能 仍然 插 回 到 初始 
结 点 ,由 此 导致 重新 插入 失败 。 对 于 不 能 实施 重新 插入 策略 的 结 点 ,就 只 能 进行 结 点 分 裂 ， 
但 R* -tree 中 的 结 点 分 裂 相 对 于 R-tree 情形 也 有 着 自己 独特 的 优化 改进 策略 。 

2) 必须 分 裂 结 点 的 优化 策略 

由 于 不 能 在 所 有 溢出 情形 下 都 使 用 重新 插入 策略 ,因此 R* -tree 也 存在 着 需要 对 结 点 
进行 分 裂 的 情况 。R" -tree 对 必须 实行 的 结 点 分 裂 采 用 了 适当 优化 改进 技术 。 

当 一 个 需要 分 裂 的 结 点 应 该 具有 M 十 1 个 被 索引 项 ,而 在 分 裂 成 两 个 结 点 后 每 个 结 
点 至 少 应 该 具有 mw 个 被 索引 项 ,最 多 可 以 包含 M 十 1 一 m 个 被 索引 项 。 此 时 ,M 十 1 个 被 
索引 项 需要 依据 各 自 空 间 位 置 分 为 两 组 以 形成 两 个 新 的 同 级 结 点 。 相 应 具有 (CM 十 1 一 
mM) 一 m 十 1 二 M 一 2m 十 2 种 分 组 方式 。 为 了 叙述 简单 起 见 , 以 下 只 对 二 维 情形 说 明 分 裂 结 
点 优化 策略 。 

(1) 对 被 索引 项 进行 排序 。 将 这 M 十 1 个 被 索引 项 按照 MBR 的 空间 特征 进行 排序 。 























此 时 ,可 以 分 别 存在 按照 被 索引 项 MBR 的 z 坐标 的 最 小 和 最 大 值 、y 坐标 的 最 小 和 最 大 值 
进行 的 4 种 排序 方式 。 对 于 如 图 5-22(a) 所 示 的 目录 MBR 中 的 B 而 言 ,相应 的 4 种 排序 结 
果 述 如 下 。 

za 按照 zx 坐标 最 小 值 排序 : < R, ,R; ,Rs ,Re>。 

@ 按照 zx 坐标 最 大 值 排序 : < Ri.R,.,R; ,Re>。 

@) 按照 y 坐标 最 小 值 排序 : < Ri ,Re ,Rs ,R4>。 

@ 按照 y 坐标 最 大 值 排序 : < Ri ,Re ,Ri ,Rs>。 

(2) 将 排序 后 被 索引 项 分 为 两 组 。 其 中 第 一 组 选取 已 排序 列 前 面 若干 项 ,而 第 二 组 就 
选取 后 面 的 剩余 项 。 由 于 每 组 被 索引 项 的 个 数 需要 在 m 和 M 之 间 , 因 此 对 于 已 排序 列 中 
的 M 十 1 个 被 索引 项 来 说 ,就 有 (CM 十 1 一 m) 一 m 十 1 二 M 一 2(m 一 1) 种 分 为 两 组 的 方式 。 所 
有 可 能 的 两 组 分 割 方 式 中 各 组 包含 被 索引 项 情形 如 表 5-2 所 示 。 


表 5-2 M+ 十 1 个 被 索引 项 可 能 的 两 组 划分 











组 ” 别 方式 1 方式 2 方式 M 一 2m 十 1 方式 M 一 2(m 一 1) 
第 一 组 m m 二 1 oo M—m M+1l—m 
第 二 组 M+1—m M—m m 二 1 m 




















每 种 排序 有 M 一 2Cm 一 1) 种 两 组 划分 方式 , 任 取 (1 二 kM 一 2(m 一 1)), 选 定 第 种 分 
组 方式 分 别 对 应 的 覆盖 第 一 组 和 第 二 组 中 被 索引 项 的 目录 MBR 并 记 为 MBRu 和 MBRu ,两 
者 的 周 长 分 别 记 为 ca 和 ce ,计算 出 (ca 十 ce ) 并 对 于 所 有 满足 1 三 kM 一 2(m 一 1) 的 做 和 


Den 十 ctz)。 
(3) 选择 排序 方式 。 对 于 上 述 4 种 排序 方式 ,可 以 分 别 得 到 4 个 >) (ca 十 ce) 的 值 , 然 
后 选取 其 中 》) (cu 十 cw) 值 最 小 的 一 种 排序 ,在 前 述 4 种 排序 序列 中 ,都 需要 对 相同 的 M 十 1 


个 被 索引 项 进行 二 组 划分 , 当 》) (cn + ce) 最 小 时 就 表明 此 种 排序 分 组 中 ,各 组 对 应 的 
MBRu 和 MBRue 最 接近 于 正方 形 。 而 在 周 长 一 定 的 情况 下 ,只 有 正方 形 的 面积 最 小 ,有 利 
于 高 一 级 目录 MBR 的 组 建 和 减少 其 重 琶 ,符合 常规 R-tree 的 最 小 性 原则 。 

(4) 确定 分 裂 后 的 新 结 点 。 选 定 了 适当 的 排序 方式 后 ,就 需要 在 基于 该 排序 的 M 一 2Gm 一 1) 
个 二 组 划分 中 选取 一 种 分 组 ,这 就 可 以 按照 MBRu 和 MBRw 重 琶 面 积 最 小 的 原则 进行 确 
定 。 在 存在 多 个 分 组 都 具有 相同 的 最 小 重 又 面积 情况 下 ,可 以 在 按照 面积 之 和 进行 
选取 。 

(5) 取代 溢出 结 点 。 最 终 确 定 分 组 之 后 ,就 以 相应 目录 MBR 取代 原先 发 生 溢出 的 结 
点 ,同时 还 需 在 发 生 溢出 结 点 的 父 结 点 中 以 两 个 新 的 结 点 取代 溢出 结 点 。 如 果 取 代 后 该 父 
结 点 也 发 生 溢出 , 则 继续 按照 "首先 重新 插入 ,否则 分 裂 优化 ?的 原则 进行 处 理 。 注 意 到 这 种 
溢出 可 能 一 直 传播 到 根 结 点 。 如 前 所 述 , 对 根 结 点 只 能 进行 分 裂 处 理 。 

由 上 述 可 知 ,R* -tree 是 在 R-tree 的 基础 上 优化 改进 了 结 点 的 重 插入 方法 ,尽量 避免 结 
点 的 分 裂 ,在 必须 分 裂 结 点 时 提供 了 优化 分 裂 的 方法 。 使 目录 间 的 重 友 最 小 ,在 查询 时 减少 
了 I/O 操作 ,提高 了 查询 效率 。 
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本 章 小 结 


SDB 是 在 地 理 信息 系统 (GIS) 基 础 上 发 展 起 来 一 门 前 沿 交叉 学 科 , 也 是 高 级 数据 库 技 
术 中 的 基本 领域 之 一 。 空 间 数据 是 指 与 客观 对 象 的 空间 位 置 特别 是 地 理 位 置 有 关 的 数据 信 
息 , 而 这 种 信息 在 实际 应 用 中 占有 相当 大 的 比例 , 据 统计 可 以 达到 80%。 与 一 般 数 据 相 比 ， 
空间 数据 具有 数据 量 巨大 数据 结构 复杂 和 数据 操作 计算 密集 多 样 等 特点 。 随 着 信息 技术 
的 发 展 进步 ,现代 社会 对 位 置 服务 和 分 析 决 策 的 需求 日 益 迫 切 ,研究 和 掌握 空间 信息 技术 理 
论 与 方法 的 重要 性 也 就 日 益 显现 。 

空间 数据 显著 特征 是 其 几何 形状 和 相互 关系 ,与 常规 数据 相 比 具有 较 大 差异 。 在 SDB 
中 ,首先 将 其 抽象 化 ,建立 起 “点 “ 线 " 和 “区 域 ”等 基本 数据 类 型 ,以 及 “划分 "和 “网 络 ” 等 导 
出 数据 类 型 。 空 间 数据 反映 空间 形体 ,研究 空间 形体 的 基本 着 重点 还 在 于 形体 相互 之 间 的 
关系 ,包括 度量 关系 、 方 位 关系 和 拓扑 关系 。 其 中 ,拓扑 关系 是 空间 数据 管理 的 基本 点 之 一 。 

SDB 源 于 GIS, 而 GIS 中 有 基于 空间 坐标 (空间 位 置 ) 的 绝对 空间 和 基于 属性 特征 ( 空 
间 关 系 ) 的 相对 空间 之 分 ,通常 就 以 此 建立 两 种 不 同 的 空间 数据 模型 , 即 基于 相对 空间 概念 
的 镶嵌 模型 和 基于 绝对 空间 概念 的 矢量 模型 。 

一 般 图 形 的 形状 在 数学 上 难以 描述 ,相应 的 拓扑 关系 也 相当 复杂 ,在 计算 机 中 就 更 不 易 
表示 ,存储 和 处 理 “ 完 全 真实 ”的 空间 形体 。 在 SDB 中 ,通常 使 用 某 种 简单 的 最 小 外 接 图 形 
“近似 ”相应 的 实际 空间 对 象 ,这 就 是 SDB 中 独 具 特 色 的 空间 对 象 近似 技术 。 通 常 采用 相 邻 
边 平 行 于 坐标 轴 的 最 小 限定 矩形 MBR。 由 此 就 可 以 建立 起 空间 对 象 数据 表示 存储 和 处 理 
的 一 套 有 效 机 制 。 

引入 了 空间 近似 技术 之 后 ,相应 空间 对 象 之 间 的 关系 就 转换 为 相应 MBR 之 间 的 关系 ， 
从 而 为 计算 机 处 理 提供 了 可 能 。 但 MBR 之 间 关 系 只 是 实际 空间 对 象 之 间 的 一 种 “必要 关 
系 ” 而 非 “ 充 分 关系 ”。 例 如 ,两 个 MBR 不 交 , 相 应 空间 对 象 必定 不 交 , 但 MBR 相交 并 不 说 
明 对 象 空间 对 象 也 一 定 相 交 。 因 此 ,使 用 空间 近似 只 是 缩小 了 数据 查找 范围 。 注 意 到 数据 
索引 本 质 就 是 利用 "必要 ”条件 缩小 查找 范围 ,因此 空间 近似 实际 上 就 为 空间 数据 索引 开辟 
了 技术 支撑 的 通道 。 

R-tree 索引 就 是 建立 空间 近似 基础 上 的 一 种 空间 数据 索引 技术 。 从 “平衡 树 ” 的 角度 ， 
R-tree 可 以 看 作 是 一 维 B-tree 在 多 维度 上 的 推广 , 现 已 成 为 空间 数据 管理 的 经 典 技术 ,也 被 
有 效应 用 在 各 类 涉及 “广义 ”维度 处 理 的 问题 当中 。 例 如 ,在 时 态 数 据 管理 当中 ,将 “有 效 时 
间 ” 和 “事务 时 间 ” 看 作 两 个 广义 维度 ,进而 使 用 R-tree 研究 相应 的 双 时 态 索 引 。R-tree 和 
B+-tree 已 经 成 为 数据 库 索 引 技术 中 的 两 个 重要 的 标志 性 索引 技术 。 

R-tree 的 一 个 基本 特征 是 下 层 中 的 一 个 结 点 项 可 以 包含 在 上 一 层 不 同 的 索引 项 当中 ， 
也 就 是 说 ,到 达 一 个 结 点 可 以 有 多 条 不 同 的 索引 路 径 , 这 就 是 R-tree 的 结 点 重 友 问题 。 结 
点 重生 为 数据 插入 中 多 条 插入 路 径 选择 提出 了 挑战 ,而 作为 R-tree 解决 此 问题 的 拓展 ,R*- 
tree 修改 插入 和 分 裂 算法 并 引入 强制 重新 插入 机 制 , 它 不 同 于 R-tree 只 考虑 目录 MBR 面 
积 大 小 ,R* -tree 在 选择 插入 路 径 时 同时 考虑 目录 MBR 面积 ,空白 区 域 ( 死 空间 ) 和 重 倒 区 
域 大 小 。 在 学 习 时 ,应 当 注 意 领 会 和 理解 R" -tree 构建 过 程 中 对 R-tree 特征 的 精细 分 析 和 
精致 处 理 。 实 际 上 ,只 有 掌握 了 R* -tree 的 基本 思想 和 处 理 技术 , 才 会 对 R-tree 索引 技术 系 


列 具有 比较 深刻 的 了 解 与 体会 。 从 索引 效率 角度 来 看 ,由 R-tree 到 R* -tree 可 以 类 比 于 由 
Br-tree 到 BT -tree。 
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第 6 章 时 态 数 据 库 





时 间 是 自然 界 无 处 不 在 的 客观 属性 。 现 实 世 界 是 一 个 四 维 时 空 ,从 本 质 上 来 看 ,三 维 空 
间 中 任何 客观 对 象 都 是 动态 变化 的 ,而 变动 是 一 个 必须 用 时 间 方 能 刻画 的 概念 。 因 此 ,发 生 
在 现实 世界 中 的 客观 对 象 都 带 有 时 间 的 烙印 ,事物 的 各 类 特征 信息 与 相应 时 间 信 息 的 关联 
在 表述 和 研究 客观 对 象 过 程 中 发 挥 着 基本 的 作用 。 在 数据 库 和 以 数据 库 为 核心 的 各 类 信息 
系统 中 ,有 效 管理 各 种 基于 时 间 的 数据 信息 是 一 个 在 原理 研究 方面 不 断 深化 和 在 技术 方法 
方面 逐步 创新 的 自然 进程 。 传 统 数据 库 把 时 间 看 作 一 般 属性 用 于 描述 客观 对 象 发 展 过 程 中 
的 特征 ,没有 考虑 不 同时 间 状 态 下 数据 的 相互 关联 及 相应 处 理 过 程 中 的 时 间 约 束 ,难以 有 效 
表示 和 处 理 时 间 应 用 环境 下 的 各 类 数据 信息 ,时 态 数 据 库 (Temporal DataBase,TDB) 技 术 
由 此 应 运 而 生 。 本 章 首先 引入 时 间 数 据 结构 .时 间 数 据 类 型 和 建立 其 上 的 时 间 运 算 ,这 是 
TDB 中 处 理 时 间 相关 数据 的 基础 ; 然后 介绍 基于 RDB 的 时 态 数据 模型 ; 最 后 简要 叙述 双 
时 态 数据 库 操作 语言 ATSQL。 


6.1 时 间 与 时 态 数据 库 


处 理 时 间 相 关 数 据 信 息 ,首先 需要 明确 时 间 概 念 并 从 计算 机 技术 角度 建立 时 间 模 型 , 讨 
论 相应 的 时 间 操 作 , 这 是 TDB 的 必 备 基础 ; 然后 需要 根据 计算 机 处 理 时 间 的 不 同 角度 建立 
不 同类 型 的 TDB。 


6.1.1 时 间 基 本 概念 


时 间 现 象 通常 可 以 通过 事物 变化 演进 的 过 程 和 结果 为 人 们 所 感知 ,但 对 于 什么 是 “时 
间 ? 至 今 仍然 是 很 多 领域 特别 是 哲学 领域 和 物理 学 探讨 的 重要 课题 。 

1. 哲学 领域 

哲学 研究 各 类 本 体 问题 ,而 此 时 人 就 具有 两 个 层面 上 的 含义 ,首先 ,从 整体 上 而 言 , 人 和 
世界 上 万 事 万 物 一 样 都 是 客体 ,都 可 以 作为 基于 客体 的 本 体 进行 探究 ; 但 人 又 是 研究 所 有 
客体 的 本 体 含义 的 “ 始 动 者 ”, 这 种 被 研究 对 象 和 研究 者 的 双重 身份 实际 上 构成 了 众多 哲 
学 (当然 也 有 科学 ) 难 题 的 底层 支撑 ,“ 时 间 ” 概 念 也 是 如 此 。 近 代 哲 学 家 们 看 来 ,时 间 是 
与 时 间 研 究 者 和 使 用 者 密切 相关 的 。 其 中 , 胡 塞 尔 和 海德 格 尔 师 徒 二 人 的 观点 具有 代 
表 性 。 

1) 胡 塞 尔 的 时 间 观 

胡 塞 尔 现象 学 有 两 个 基本 观点 : 一 是 本 质 直 观 方法 ; 二 是 先 验 还 原 方法 。 后 者 着 重 讨 
论 “ 存 在 ”问题 ,其 中 一 个 重要 概念 就 是 纯粹 意识 。 胡 塞 尔 认为 纯粹 意识 由 印象 .回忆 和 展望 


构成 ,而 这 些 必然 就 隐 含 着 现在 、 过 去 和 未 来 的 时 间 概 念 ,也 就 是 说 ,纯粹 意识 实际 上 就 构成 
了 人 们 整个 内 在 的 时 间 意 识 。 

2) 海德 格 尔 的 时 间 观 

作为 胡 塞 尔 的 高 徒 ,海德 格 尔 实际 上 是 使 用 现象 学 方法 创建 了 哲学 意义 上 的 “人 类 学 ”， 
其 中 的 关键 元 语 就 是 此 在 ”(dasein)。 他 认为 人 的 存在 实际 上 就 是 打发 掉 一 段 时 间 , 人 的 
存在 具有 3 种 不 同 的 方式 : 沉沦 态 .搁置 态 和 生存 态 ,它们 分 别 对 应 于 时 间 的 过 去 、 现 在 和 
将 来 。 这 三 态 实际 上 就 是 “此 在 ”在 时 间 中 的 生存 方式 。 如 果 说 “存在 ”是 海德 格 尔 哲 学 的 核 
心 , 则 时 间 就 是 存在 的 核心 。 

2. 科学 领域 

科学 领域 中 的 时 间 ( 当 然 还 有 空间 ) 概 念 更 多 具有 客观 考量 和 技术 操作 的 意义 ,这 是 与 
哲学 中 时 间 探 究 的 不 同 之 处 。 其 中 ,牛顿 和 爱 因 斯 坦 的 时 间 观 已 经 成 为 当今 科学 技术 领域 
中 的 经 典 。 

(1) 牛顿 时 间 观 : 时 间 维 与 空间 维 相 似 但 独立 于 空间 维 之 外 。 空 间 和 时 间 都 是 客观 
的 ` 绝 对 的 和 独立 存在 的 ,与 人 们 的 感知 与 感受 没有 关系 ,并 且 空间 和 时 间 彼 此 无 关 。 

(2) 爱 因 斯 坦 时 间 观 : 客观 世界 是 由 一 个 时 间 维 度 和 3 个 空间 维度 组 成 的 四 维 时 空 ,时 
间 和 空间 彼此 融合 并 且 可 以 相互 作用 转换 ,没有 独立 于 空间 的 时 间 , 也 没有 脱离 于 时 间 的 空 
间 , 时 间 与 空间 相 结合 而 成 为 时 空 统一 体 。 在 狭义 相对 论 中 ,时 间 和 空间 坐标 像 两 个 空间 坐 
标 一 样 并 没有 本 质 意义 上 的 差别 ; 在 广义 相对 论 中 ,时 间 和 空间 一 样 具有 “双向 性 ”, 能 够 像 
进行 空间 旅行 那样 进行 时 间 旅 行 。 

3. 时 间 概 念 的 复杂 性 

由 于 时 间 概 念 相当 复杂 ,涉及 人 们 所 处 环境 的 根本 所 在 ,很 多 问题 都 需要 进一步 探究 ， 
因此 上 述 时 间 观 实际 上 还 没有 真正 统一 人 们 对 于 时 间 的 理解 与 把 握 。 按 照 AL-Taha(1992 
年 ) 的 观点 ,产生 时 间 概 念 复杂 性 的 原因 可 能 在 于 下 述 几 个 方面 。 

(1) 时 间 语 义 多 样 性 。 一 个 时 间 用 语 可 以 有 多 种 基于 应 用 场景 的 时 间 语 义 的 解释 。 例 
如 ,在 英语 中 ,Now 可 以 指 今天 .这 一 个 星期 、 今 年 或 本 世纪 ; Today 可 以 指 现在 或 今天 ; 
Future 可 以 指明 天 、 一 周 后 或 一 年 后 ; Past 可 以 指 一 个 小 时 前 、 昨 天 或 一 周 前 。 

(2) 时 间 粒 度 复 杂 性 。 对 不 同 研究 和 应 用 领域 ,对 时 间 理 解 与 要 求 可 以 很 不 一 样 。 对 
历史 研究 而 言 ,一 年 是 一 个 很 小 的 单位 ; 而 对 基本 粒子 研究 来 说 ,一 秒 就 是 一 个 很 大 的 
单位 。 

(3) 事件 过 程 多 样 性 。 人 们 通常 是 通过 所 从 事 活动 的 事件 过 程 来 理解 把 握 时 间 ,如 “一 
顿 饭 的 工夫 ”“ 月 圆 时 分 ”等 。 但 事件 过 程 本 身 却 非常 复杂 多 样 ,如 可 分 为 外 部 的 和 内 部 的 
(人 工 ) 事 件 。 外 部 事件 是 自然 过 程 ,如 地 震 和 海啸 等 ; 内 部 事件 是 非 自然 过 程 ,如 人 类 的 战 
争 和 法 律 的 颁布 实施 等 。 这 种 多 样 性 为 统一 认识 和 理解 时 间 带 来 了 困难 。 

(4) 时 间 感 受 的 主观 性 。 时 间 与 人 们 的 感受 密切 相关 ,在 不 同 环境 中 的 不 同 经 历 可 以 
使 人 们 具有 完全 不 同 的 时 间 感 受 。 爱 因 斯 坦 就 曾经 说 过 , 当 人 在 一 个 灼热 火炉 旁 时 会 感觉 
到 时 间 过 得 真 慢 ; 当 和 一 个 美丽 姑娘 待 在 一 起 时 又 会 感觉 到 时 间 过 得 真 快 。 此 外 ,还 有 时 
间 关 于 运动 速度 的 相对 性 ,如 著名 的 “双胞胎 详 雇 ”。 

在 日 常生 活 中 ,时 间 似 乎 表现 得 普通 而 简单 ,但 对 于 计算 机 而 言 ,进入 到 机 器 中 的 一 切 
数据 都 需要 严格 界定 和 清晰 描述 。 然 而 ,对 时 间 进 行 明确 表述 和 科学 模拟 却 是 一 项 极 具 挑 
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战 性 的 工作 ,人 们 为 此 努力 探索 了 好 几 百 年 。 也 许 人 们 事实 上 并 不 能 在 科学 的 意义 上 明确 
界定 时 间 ,而 只 能 从 事物 的 发 展 变化 中 来 感知 时 间 。 从 深层 感知 的 语义 上 考虑 ,时 间 就 是 事 
件 演进 的 序列 ,时 间 本 质 就 是 客观 对 象 从 一 种 状态 变化 到 另 一 种 状态 的 变化 。 客 观 事物 变 
化 有 本 质 和 非 本 质变 化 之 分 ,前 者 导致 新 的 客观 事物 出 现 , 即 产生 一 个 新 的 对 象 ; 后 者 导致 
客观 事物 进化 的 一 个 新 版 本 诞生 。 

人 们 或 许可 以 通过 状态 (state) .事件 (event) 和 证 据 (evidence) 这 三 类 数据 来 表述 变化 
和 感知 时 间 。 

J@ 状态 : 表达 事物 在 某 一 时 刻 的 属性 。 

@ 事件 : 实体 从 一 种 状态 转化 为 另 一 种 状态 ,需要 探讨 和 描述 变化 发 生 原因 。 

@ 证 据 : 表明 某 个 事件 已 经 发 生 , 某 个 实体 已 经 从 一 个 状态 转化 为 男 一 个 状态 。 


6.1.2 时 间 的 数据 结构 


时 间 现 象 可 以 通过 事物 变化 演进 的 结果 为 人 们 所 感知 ,这 可 以 看 作 是 对 时 间 内 涵 的 一 
种 哲学 释义 。 事 实 上 ,对 于 “时 间 ” 而 言 ,人 们 只 能 和 对 待 “ 数 据 ”" 和 “信息 ”等 “元 ”概念 一 样 ， 
在 本 体 探究 上 保持 敬 旦 ,在 特定 的 技术 领域 中 采取 * 实 用”, 即 只 对 其 (也 只 能 对 其 进行 某 种 
描述 性 概括 。 对 于 TDB 技术 而 言 , 则 主要 从 计算 机 应 用 与 实现 角度 讨论 时 间 表 示 及 其 数据 
结构 。 

1. 时 间 数 据 结构 

从 一 般 意义 上 考虑 ,人 们 理解 和 处 理 时 间 的 基本 单位 是 “时 刻 ” 或 “时 间 点 ”"。 在 实际 应 
用 中 ,通常 是 需要 同时 考虑 多 个 相互 具有 语义 关联 的 时 间 点 组 成 的 集合 。 因 此 ,需要 建立 起 
时 间 ( 点 ) 的 数据 结构 。 

1) 连续 ,稠密 和 离散 数据 结构 

可 以 从 最 一 般 的 时 间 关 联 角 度 来 考虑 连续 稠密 和 离散 这 3 种 时 间 数 据 结 构 。 

(1) 连续 时 间 结 构 : 将 时 间 点 表示 为 非 负 实数 ,从 而 将 所 涉及 时 间 集 合 建 模 为 非 负 实 
数 集合 。 通 过 对 时 间 进 行 采 样 方式 处 理 实数 的 连续 性 。 此 时 ,可 以 认为 每 一 个 非 负 实 数 都 
对 应 一 个 “时 间 点 ” 

(2) 稠密 数据 结构 : 将 时 间 点 表示 为 非 负 有 理 数 ,从 而 将 时 间 建 模 为 非 负 有 理 数 的 集 
合 。 由 于 有 理 数 的 稠密 性 ,通过 在 任意 两 个 不 同 有 理 时 间 点 之 间 都 可 找到 另 一 有 理 时 间 点 
来 解释 有 理 数 的 稠密 性 。 对 于 时 间 的 连续 和 稠密 数据 结构 ,可 通过 适当 差 值 方法 以 实现 对 
于 时 间 数 据 的 计算 机 处 理 。 

(3) 离散 数据 结构 : 将 时 间 点 表示 为 非 负 整数 数 ,从 而 将 时 间 建 模 为 非 负 整数 集合 。 
由 于 非 负 整数 的 离散 性 ,因此 不 能 无 限制 地 使 用 插值 方法 ,否则 就 可 能 得 不 到 任何 离散 时 间 
点 。 此 时 ,每 一 个 非 负 整 数 都 对 应 一 个 “最 小 ”的 不 能 青 分 的 原子 时 间 间 隔 , 这 就 是 建立 在 时 
间 基 元 之 上 的 时 间 粒 度 。 

2) 线性 、 分 枝 和 周期 时 间 数 据 结构 

按照 人 们 直观 经 验 , 时 间 如 同 流水 一 样 单 向 前 进 。 从 计算 机 数据 处 理 的 技术 角度 考虑 ， 
根据 时 间 前 进 趋向 的 发 展 结果 ,可 以 建立 时 间 的 线性 、 分 枝 和 周期 数据 结构 

(1) 线性 时 间 结构 。 时 间 从 过 去 开始 经 过 现在 并 按照 顺序 发 展 到 未 来 。 这 种 由 过 去 到 
现在 ,再 由 现在 到 未 来 的 进程 具有 线性 递增 特征 ,所 有 发 展 结 果 能 够 按照 全 序 进行 组 织 , 构 





成 一 种 线性 时 间 结 构 , 如 图 6-1 所 示 。 例 如 ,一 个 人 从 出 生 到 离世 过 程 中 所 经 历 的 各 种 重要 
事件 描述 。 


1 1 1 LL 
加 看 把 可 吉 


6-1 线性 时 间 结 构 


(2) 分 枝 时 间 结构 。 时 间 由 开始 到 未 来 可 能 沿 着 多 个 方向 发 展 ,进程 中 的 发 展 结果 可 
以 按照 偏 序 进行 组 织 进 而 形成 一 个 分 枝 ( 树 形 ) 时 间 结 构 。 分 枝 时 间 结 构 中 任意 两 个 时 间 结 
点 不 一 定 可 进行 比较 。 例 如 ,在 软件 开发 过 程 中 ,一 个 版 本 发 展 成 不 同 的 分 枝 版 本 ,而 分 枝 
版 本 又 会 进行 分 枝 演化 ,不 同 分 枝 版 本 上 的 内 容 结 点 通常 不 能 进行 比较 。 又 如 ,人 类 发 展 史 
上 由 阿 法 南 猿 到 包 氏 古 猿 再 到 能 人 ,然后 能 人 分 别 演化 为 尼 安 德 特 人 、 霍 比特 人 ,北京 猿人 
和 智 人 等 多 个 分 枝 。 分 枝 时 间 结 构 又 可 分 为 两 种 情形 : 一 种 是 由 过 去 到 现在 线性 演进 ,而 
由 现在 到 未 来 则 有 多 种 发 展 可 能 ,如 图 6-2(a) 所 示 ; 另 一 种 是 从 过 去 到 现在 有 多 种 演进 方 
向 ,但 由 现在 到 未 来 却 是 线性 发 展 ,如 图 6-2(b) 所 示 。 








6-2 分 枝 时 间 结 构 


(3) 循环 时 间 结 构 。 客 观 实体 随时 间 由 过 去 到 现在 再 到 未 来 周而复始 出 现 循 环 , 即 具 
有 某 种 周期 性 ,此 时 所 有 发 展 结果 构成 一 种 图 形 结构 ,如 4 四 


图 6-3 所 示 。 但 从 发 展 结果 上 来 看 ,是 难以 区 分 “过 去 ”和 \ 
“将 来 "时 间 的 。 例 如 , 钟 摆 的 运动 进程 随机 投掷 的 硬币 正 1 
反面 的 显示 等 。 


对 于 时 间 数 据 而 言 ,线性 、 分 枝 和 周期 结构 实际 上 就 是 全 
一 般 数 据 结构 中 的 线性 结构 、 树 形 结构 和 图 结构 在 实际 数 图 6-3 ”循环 时 间 结 构 
据 领 域 中 的 具体 表现 。 在 TDB 中 ,主要 讨论 和 采用 基于 离 
散 类 型 的 线性 时 间 数 据 结构 。 
2. 时 间 基 元 与 时 间 粒 度 
在 实际 应 用 中 ,所 采用 的 时 间 轴 线 通常 由 一 系列 离散 时 间 点 (Time Point) 也 就 是 非 负 
整数 点 构成 ,为 了 明确 具体 应 用 环境 中 的 这 些 整数 点 的 语义 ,还 需要 引入 “时 间 基 元 ”和 ”时 
间 粒 度 ” 两 个 基本 概念 。 
1) 时 间 基 元 
从 技术 上 来 说 ,时 间 属 于 度量 范畴 。 需 要 结合 计算 机 自身 特点 确定 一 个 时 间 的 基准 ,这 
个 基准 包括 时 间 的 一 个 最 小 的 不 可 分 割 的 计时 单位 C 一 一 这 通常 称 为 “时 间 基 元 ” 
(Chronon) 和 一 个 时 间 的 始点 。 6 
在 计算 机 中 ,时 间 基 元 是 由 计算 机 芯片 晶振 频率 决定 的 ,一 般 取 为 1/18.2 秒 。 章 
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计算 机 中 时 间 起 始 的 基准 点 是 UMT 时 间 即 世界 标准 时 间 ( 格 林 尼 治 时 间 )GMT: 
1970 年 1 月 1 日 0 时 0 分 0 秒 。 实 时 系统 一 般 要 求 时 间 精 度 达到 10 一 10“ 秒 。 

时 间 基 元 是 计算 机 系统 所 支持 的 最 小 时 间 基 准 , 在 计算 机 内 部 以 时 间 基 元 作为 计时 基 
准 保证 了 计算 机 时 间 标 准 的 唯一 性 ,不 同时 区 的 不 同时 间 表 示 只 是 为 方便 用 户 而 实行 的 必 
要 转换 。 

2) 时 间 粒 度 

在 一 项 特定 实际 应 用 中 所 采用 的 描述 时 间 数 据 的 时 间 单 位 称 为 “时 间 粒 度 ”(time 
granularity) 。 时 间 粒 度 表示 时 间 点 间 离 散 化 程度 ,其 大 小 受到 时 间 基 元 约束 。 作 为 计算 机 
系统 最 小 时 间 基 准 ,时 间 基 元 是 一 个 系统 概念 ; 而 作为 一 个 技术 概念 和 用 户 应 用 时 最 小 的 
时 间 单 位 ,时 间 粒 度 不 能 小 于 时 间 基 元 。 

时 间 粒 度 在 某 种 意义 下 也 可 看 作 是 时 间 基 元 的 “倍数 ”, 但 在 语义 上 和 人 们 使 用 的 时 间 
单位 关联 。 时 间 粒 度 反映 了 有 具体 时 态 信息 系统 中 描述 时 间 点 的 各 类 适用 单位 。 时 间 粒 度 越 
小 ,离散 时 间 点 就 越 多 ,描述 事件 变化 的 信息 越 精细 准确 。 但 太 小 的 粒度 会 导致 系统 资源 开 
销 增加 ; 反之 ,描述 事件 变化 的 信息 越 粗糙 。 

3) 单 粒 度 和 多 粒度 

在 数据 管理 过 程 中 ,时 间 数 据 语 义 复杂 性 主要 表现 在 时 间 粒 度 的 多 样 性 ,因此 ,相应 数 
据 库 系统 中 存在 单 粒度 和 多 粒度 两 种 形式 。 只 支持 一 种 时 间 粒 度 的 数据 库 为 单 时 间 粒 度 系 
统 , 否 则 就 为 多 时 间 粒 度 系 统 。 对 于 多 时 间 粒 度 系统 来 说 ,其 中 不 同 的 数据 库 应 用 可 使 用 不 
同时 间 粒 度 , 如 描述 农业 产量 的 数据 使 用 “年 ”"; 描述 工资 信息 使 用 “月 ”; 描述 某 些 科学 系 
统 信息 粒度 可 以 更 小 , 取 秒 ,微妙 、 毫 秒 等 。 

在 实际 应 用 中 ,选择 粒度 应 根据 实际 需求 和 系统 承受 能 力 决定 ,而 各 种 时 间 粒 度 相 互 间 
通畅 转化 则 是 系统 处 理 时 间 数 据 效 能 优 劣 的 基本 标志 之 一 。 

3. 时 间 数 据 类 型 

在 线性 离散 模型 中 ,时 间 的 语义 与 所 采用 的 时 间 粒 度 相 关 。 类 似 于 程序 设计 语言 中 基 
本 数据 类 型 概念 ,在 实际 应 用 当中 ,还 需要 建立 当 确定 时 间 粒 度 后 的 各 种 时 间 数 据 类 型 。 

(1) 时 间 点 (instant)。 连 续 模型 中 时 间 点 是 时 间 轴 上 的 实数 点 ,离散 模型 中 时 间 点 是 
时 间 轴 上 的 一 个 原子 时 间 间 隔 , 此 时 语义 由 相应 时 间 粒 度 确 定 。 例 如 ,当时 间 粒 度 为 “天 ” 
时 ,2016 年 12 月 1 日 是 时 间 点 ; 而 当时 间 粒 度 是 “ 秒 ” 时 ,上 述 时 间 点 就 由 系统 自动 换算 为 
2016 年 12 月 1 日 0 时 0 分 0 秒 。 

(2) 时 间 期 间 (period)。 给 定 两 个 时 间 点 和 zon 二 tz) ,以 为 始点 和 以 zo 为 终点 的 
时 间 期 间 [a , ts) 定义 为 集合 {zl 1 为 时 间 点 且 刀 +<ts)。 时 间 点 可 看 作 始 点 和 终点 重合 的 
时 间 期 间 ,理解 为 延续 时 间 为 0 的 一 段 时 间 。 实 际 应 用 中 ,由 于 需 考 虑 时 间 期 间 兼 容 时 间 点 
的 表示 和 时 间 期 间 关系 的 关系 运算 ,一般 采用 始点 封闭 、 终 点 开放 的 “ 左 闭 右 开 ”形式 。 

(3) 时 间 元 素 (periods)。 有 限 个 时 间 期 间 ( 时 间 点 ) 的 集合 。 时 间 元 素 在 英文 中 也 可 表 
述 为 Time Element。 时 间 元 素 主要 用 于 描述 应 用 中 的 复杂 时 间 数 据 。 

时 间 期 间 是 在 时 态 数据 管理 过 程 当中 的 基本 时 间 标 签 ; 时 间 点 可 以 看 作 是 始点 和 终点 
重合 的 时 间 期 间 ; 时 间 元 素 本 身 就 是 时 间 期 间 ( 时 间 点 ) 集 合 。 

(4) 时 间 区 间 (interval) 。 持 续 的 一 段 时 间 的 长 度 。 例 如 ,“1 year 3 month”30days” 和 
“28hours” 等 。 通 常 选用 适当 时 间 粒 度 后 多 使 用 整数 表示 时 间 区 间 。 时 间 区 间 也 称 为 时 间 





跨度 (time span) 。 

(5) 时 间 戳 (timestamp)。 由 一 些 字符 构成 的 序列 ,用 于 唯一 地 标识 某 一 刻 的 时 间 。 对 
于 计算 机 系统 而 言 ,时间 截 是 指 格林 尼 治 时 间 1970 年 01 月 01 日 00 时 00 分 00 秒 (北京 时 
间 1970 年 01 月 01 日 08 时 00 分 00 秒 ) 起 直至 当前 时 刻 总 的 秒 数 。 数 据 库 系统 中 时 间 截 
是 系统 中 自动 生成 的 唯一 的 二 进 制 数 ,存储 大 小 为 8 个 字 节 。 时 间 蕉 通常 用 作 给 关系 表 或 
元 组 行 添加 版 本 截 记 。 现 有 的 数字 时 间 戳 技术 则 是 数字 签名 技术 一 种 应 用 变形 ,因此 ,时 间 
截 可 以 理解 为 证 明 时 间 的 可 查证 印章 。 


6.1.3 时 间 运 算 


数据 库 系 统 对 时 间 数 据 进行 有 效 管理 需要 具有 相应 的 时 间 数 据 操作 功能 ,而 这 就 需要 
从 原理 上 讨论 时 间 数 据 的 各 类 和 运算。 类似 于 高 级 程序 设计 语言 情形 ,在 建立 基本 时 间 数 据 
类 型 之 后 就 需要 讨论 相应 的 时 间 数 据 运 算 。 时 间 数 据 运算 主要 分 为 : 时 间 算 术 运 算 和 时 间 
关系 运算 两 种 类 型 。 

1. 时 间 算 术 运 算 

时 间 算 术 运 算 包 括 同 种 数据 类 型 内 和 不 同 数据 类 型 间 运 算 。 以 下 记 P 王 [P.,P.。) 为 以 
时 间 点 P, 为 始点 , 且 以 时 间 点 P。 为 终点 的 时 间 期 间 。 

1) 时 间 点 与 时 间 跨 度 算术 运算 

设 p、pi、ps 是 时 间 点 ,len 是 时 间 跨 度 。 

(1) 时 间 点 和 时 间 跨 度 加 法 运算 。 时 间 点 p 十 时 间 跨 度 len 一 新 时 间 点 p。 

“十 ”语义 为 : 时 间 轴 上 时 间 点 p 向 左 平移 了 len 个 单位 。 

“十 ”满足 交换 律 : p 十 len 二 len 十 p。 

(2) 时 间 点 和 时 间 跨 度 减法 运算 。 时 间 点 p 一 时 间 跨 度 len 一 新 时 间 点 p。 

“一 ”语义 为 : 时 间 轴 上 时 间 点 p 向 右 平移 len 个 时 间 单 位 。 

(3) 时 间 点 和 时 间 点 减法 运算 。 当 pi 二 ps 时 ,时 间 点 ps 一 时 间 点 Pi 一 时 间 跨 度 。 

此 时 运算 语义 为 : 时 间 点 py 和 时 间 点 ps 之 间 的 距离 (跨度 ) , 记 为 ps 一 pi。 

2) 时 间 期 间 与 时 间 跨 度 间 运算 

P==[P,,P.)\Pi 二 [ Pis， Pi.)、P; 二 [ Ps， Pz.) 是 时 间 期 间 ,len 是 时 间 跨 度 。 

(1) 时 间 期 间 与 时 间 跨 度 加 法 。 时 间 期 间 P 十 时 间 跨 度 len 二 [P, 十 len,P. 十 len)。 

此 时 运算 语义 为 : 在 时 间 轴 上 的 时 间 期 间 P 向 右 平 移 了 len 个 时 间 单 位 。 

运算 满足 交换 律 : P 十 len 二 len 十 P。 

(2) 时 间 期 间 与 时 间 跨 度 减法 。 时 间 期 间 P 一 时 间 跨 度 len 二 [P, 一 len,P. 一 len)。 

此 时 运算 语义 为 : 时 间 轴 上 的 时 间 期 间 P 向 左 平移 了 len 个 时 间 单 位 。 

(3) 时 间 期 间 与 时 间 期 间 减 法 。 当 Ps, 夺 Pi. 时 ,时 间 期 间 P, 一 时 间 期 间 Ps, 二 Pi. 一 P:.。 

当 Ps. 三 Pi 时 ,时 间 期 间 P, 一 时 间 期 间 P, 二 Pi 一 P。。 

此 时 运算 语义 为 : 时 间 轴 上 两 个 时 间 期 间 P; 和 P; 之 间 的 距离 。 

3) 时 间 跨 度 间 运算 

两 个 时 间 跨 度 之 间 可 以 定义 相应 的 加 , 减 、 乘 和 除法 运算 ,但 在 相 除 需要 将 商 的 小 数 部 
分 截断 而 仍然 为 整数 以 表示 一 个 时 间 跨 度 。 作 为 整 型 数据 ,时 间 跨 度 和 整数 也 可 以 进行 相 
应 运算 。 设 len 为 时 间 跨 度 ,i 是 一 个 整数 . 则 可 以 定义 len 与 i 的 乘法 与 除法 运算 如 下 : 
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(1) lenXi 二 iXlen, 运 算 结 果 仍 然 是 一 个 时 间 跨 度 。 

(2) len 垃 i, 运算 结果 仍然 是 一 个 时 间 跨 度 。 

4) 时 间 元 素 聚 集 函 数 

设 pi 、ps 是 时 间 点 ,P=[P.,P.] 是 时 间 期 间 , 定 义 如 下 聚集 运算 。 
(1) 两 时 间 点 最 小 函数 min(pi ,p; ) 。 

(2) 两 时 间 点 最 大 函数 max(pi ,ps ) 。 

(3) 求 时 间 期 间 始 点 函数 begin(P) 一 P.。 

(4) 时 间 期 间 终点 函数 end(P) 一 P。。 

(5) 时 间 期 间 跨度 函数 length(P) 二 P. 一 P,。 


2. 时 间 关 系 运算 


时 间 关 系 运算 是 使 用 时 间 谓 词 表 达 式 的 必 备 前 提 , 主 要 用 于 判断 和 处 理 时 间 期 间 相互 
之 间 的 位 置 拓扑 关系 。 现 有 的 时 间 关 系 运 算 主要 是 采用 Allen 提出 的 13 种 基于 时 间 期 间 
的 关系 演算 ,如 表 6-1 所 示 。 其 中 ,Pi 、P; 分 别 表示 时 间 期 间 。 


时 间 期 间 关系 


Allen 提出 的 13 种 基于 时 间 期 间 的 关系 演算 
基本 语义 


表 6-1 





Before(P, ,P;,) 


Pi 比 Ps 早 开始 ,同时 P, 与 P* 之 间 没 有 相交 





After(P, ,P;,) 


Pi 比 P, 晚 开 始 , 同 时 Pi 与 P, 之 间 没 有 相交 





During(P, ,P;) 


P 比 P, 晚 开始 , 且 早 结束 , 即 在 时 间 轴 上 P 的 区 间 范 围 被 包含 在 P, 的 区 间 范 
围 内 





ContainsC(P, ,P: ) 


Pi 比 P, 早 开 始 , 且 晚 结束 , 即 在 时 间 轴 上 P, 的 区 间 范 围 包括 了 P。 的 区 间 范 围 





Overlaps(P, ,P,) 


Pi 比 Ps 早 开 始 , 且 早 结束 , 且 两 个 区 间 在 时 间 轴 上 有 相交 





Overlapped-by(P' ,P; ) 


Pi 比 P; 晚 开 始 , 且 晚 结束 , 且 两 个 区 间 在 时 间 轴 上 有 相交 





Meets(Pi ,P: ) 


Pi 比 P, 早 开始 , 且 Pi 与 Ps 之 间 没 有 其 他 时 态 区 间 , 即 P, 开始 于 Pi 的 结束 点 





Met-by(P, ,P, ) 


Pi 比 P; 晚 开 始 , 且 P, 与 P, 之 间 没 有 其 他 时 态 区 间 , 即 P, 开始 于 P 的 结束 点 





Starts(P, ,P,) 


P 和 P。 有 共同 的 起 始点 ,但 P, 比 P。 先 结束 





Started-by(P ,P: ) 


P! 和 P。 有 共同 的 起 始点 ,但 P; 比 P, 先 结束 





Finishes(P, ,P: ) 


P, 和 P。 有 共同 的 结束 点 ,但 P, 比 P; 晚 开始 





Finished-by(P , P;) 


P, 和 P。 有 共同 的 结束 点 ,但 P; 比 Pi 晚 开 始 





Equals(P, ,P;) 





P! 和 P。 有 共同 的 时 间 区 间 , 即 Pi 与 P; 在 时 间 轴 上 重合 


在 上 述 13 种 时 间 期 间 关系 中 ,有 6 对 关系 可 以 互相 转换 , 即 Before (P,P,)== After 


(P; ,Pi)\ During (P,P;)= Contains(P;, ,Pi),Overlaps (P,P;)= Overlapped-by(P;, Pi)、 
Meets(P, ,P;)= Met-by(P;, , P, ) Starts(P, ,P;)= Started-by(P, ,P, )、Finishes(P, , P, ) 一 
Finished-by(P: ,P; ) 。 另 外 还 有 Equals(P; ,P: ) 王 Equals(P: ,P; ) ,因此 实际 上 只 有 7 种 关系 
演算 独立 。 


6.1.4 时 间 维 度 与 时 态 数据 库 


客观 事物 都 处 在 一 定时 间 环 境 当 中 ,并 随时 间 演 进发 展 变化 。 数 据 信息 是 客观 事物 的 
反映 ,因而 也 随时 间 而 变化 。 随 时 间 变 化 的 数据 可 看 作 是 时 态 数据 (temporal data) 。 时 态 
数据 中 的 时 间 数 据 信 息 可 以 隐 式 表示 :如 RDB 和 ODB 等 中 的 数据 ; 也 可 以 根据 需要 或 必 


须 显 示 表 示 , 如 本 章 所 要 讨论 的 TDB 中 的 时 态 数据 。 时 态 数据 通常 通过 时 间 标 签 
(timestamps) 描 述 其 数据 相应 时 间 特 征 。 描 述 现实 世界 的 带 有 了 时间 属 性 的 数据 库 系 统 , 尤 
其 是 以 时 态 数据 管理 为 主要 特征 的 系统 通常 称 为 时 态 数据 库 系统 (Temporal DataBase 
System，TDBS) 。TDBS 的 典型 应 用 如 有 金融 方面 的 会 计 和 银行 数据 系统 ; 档案 管理 方面 
的 人 事 档 案 和 医疗 记录 数据 系统 ; 行程 安排 中 的 飞机 、 火 车 和 酒店 等 的 数据 系统 ; 科学 应 
用 方面 气候 和 地 理 数据 系统 等 。 表 6-2 表示 一 个 单位 员工 的 职称 和 工资 随时 间 变 化 的 情 
况 。 其 中 ,员工 的 姓名 具有 相对 稳定 性 ,时 变 属性 职称 和 工资 记录 是 分 段 的 。 在 这 里 ,用 表 
格 方式 记录 的 该 单位 员工 工资 和 职称 的 数据 就 是 时 态 关 系数 据 ,这 些 时 态 数据 反映 该 单位 
员工 职称 和 工资 信息 就 是 时 态 信息 。 


表 6-2 员工 的 职称 和 工资 随时 间 变 化 的 情况 

















Name Title Salary 

ee Lecture. [2005,2010) 7000,[2005 ,2010) 
Associatt-prof. [2011,2014) 9500,[2011,2014) 

White Lecture. [2012,2015) 5500,[2012,2015) 

Peter Prof. [2011,2013) 12000,[2011,2013) 


在 时 态 数据 库 系统 中 ,通常 不 是 考虑 单个 时 间 元 素 而 是 若干 相关 时 间 元 素 的 一 个 集合 ， 
同时 还 需要 根据 实际 应 用 情形 研究 时 间 元 素 集 合 的 特定 语义 即 数 据 的 时 间 维 度 (time 
demension)。 在 实际 应 用 中 ,时 间 维 度 主要 有 用 户 定义 时 间 维 度 、 有 效 时 间 维 度 和 事务 时 间 
维度 3 种 基本 情况 。 

1. 数据 的 时 间 维 度 

物理 实体 在 空间 的 3 个 维度 实际 上 可 以 看 作 是 观察 该 实体 的 3 个 不 同 角 度 。 因 此 ,在 
分 析 考 虑 一 般 事物 时 ,人 们 也 常常 将 考察 的 角度 称 为 维度 。 为 了 在 计算 机 中 实现 时 间 的 
有 效 管理 ,需要 将 数据 所 涉及 时 间 进 行 各 种 角度 的 解构 分 析 , 针 对 不 同情 形 进行 处 理 整 
合 。 在 时 态 数据 管理 框架 内 ,所 涉及 时 间 通 常 分 为 用 户 定义 时 间 `. 有效 时 间 和 事务 时 间 3 
个 维度 。 

1) 用 户 定 义 时 间 

用 户 自 定义 时 间 (user-defined time) 是 指 用 户 根据 自身 需要 或 理解 而 定义 的 时 间 。 通 
常 取 值 为 时 间 点 或 用 户 定 义 数 据 类 型 ,相应 语义 由 用 户 应 用 本 身 予 以 解释 。 

DBMS 将 用 户 定义 时 间作 为 普通 属性 与 其 他 属性 同等 对 待 处 理 , 一 般 都 将 其 归结 为 普 
通 字 符 串 操作 。 系 统 不 对 其 进行 任何 特殊 处 理 ,也 不 提供 专门 语言 支持 。 

用 户 定义 时 间 的 提供 和 更 新 由 用 户 自身 完成 。 用 户 定义 时 间 值 完全 依赖 于 实际 应 用 ,由 
用 户 和 系统 以 常规 方式 存 取 。 例 如 ,为 了 存储 “生日 "信息 ,可 以 根据 需要 定义 一 个 “生日 ”数据 
类 型 的 属性 ,如 相应 元 组 中 对 应 属性 值 为 ~1998-10-21”, 此 时 “生日 ”就 是 一 个 用 户 定义 时 间 。 

由 于 允许 在 原 有 系统 数据 类 型 的 基础 上 建立 用 户 自身 所 需 数 据 类 型 ,RDBS 支持 用 户 
定义 时 间 数 据 类 型 。 在 创建 或 更 新 数据 时 ,用 户 定义 时 间 的 数据 类 型 和 其 他 数据 类 型 一 样 
被 用 户 使 用 。 

2) 有 效 时 间 

有 效 时 间 (valid time) 是 指 一 个 对 象 ( 事 件 ) 在 现实 世界 中 发 生 并 保持 的 那 段 时 间 , 或 者 
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该 对 象 在 现实 世界 中 为 真 的 时 间 。 

有 效 时 间 可 以 是 单一 的 时 间 点 ,单一 的 时 间 期 间或 者 是 时 间 点 和 时 间 期 间 有 限 集合 及 
混成 集合 ,也 可 以 是 整个 时 间 域 ,这 是 由 于 一 条 记录 属性 取 值 可 能 在 任意 时 间 点 、 时 间 期 间 
内 为 真 。 有 效 时 间 的 创建 和 更 新 由 用 户 自 身 完成 。 但 与 用 户 自 定义 时 间 不 同 的 是 : 相应 查 
询 语句 被 检测 到 存在 有 效 时 间 语 义 时 ,需要 通过 DBMS 进行 解释 。 

有 效 时 间 有 如 下 主要 特点 。 

(1) 有 效 时 间 值 的 含义 依赖 于 具体 应 用 , 取 值 是 否 有 效 由 具体 应 用 场合 而 定 , 即 涉及 
(时 态 ) 数 据 约束 问题 。 

(2) 有 效 时 间 一 般 具 有 过 去 时 间 、 现 在 时 间 和 未 来 时 间 的 基本 请 义 。 

有 效 时 间 对 事物 的 描述 简洁 直观 、 容 易 理 解 。 表 6-3 是 具有 有 效 时 间 关 系 表 的 实例 。 


表 6-3 具有 有 效 时 间 关 系 表 的 实例 




















Name Title VTs VTe 
Raul Lecture 2008-07-01 2011-09-30 
Raul Associate-prof. 2011-10-01 2013-05-31 
Raul Prof. 2013-06-01 Now 


由 表 6-3 可 知 ,Raul 身份 变动 历史 ,通过 增加 起 始 有 效 时 间 VTs(starting valid time) 和 
增加 终止 有 效 时 间 VTe(ending valid time) 两 个 属性 记录 数据 有 效 时 间 。 但 增加 这 两 个 属 
性 并 不 意味 RDBMS 就 自动 可 以 转换 为 TDBMS, 这 是 因为 作为 一 个 TDBMS, 需 要 支持 时 
态 数据 定义 语言 (TDDL)、 时 态 数据 操作 语言 (TDML)、 时 态 查 询 语言 (temporal query 
language) 和 时 态 约束 (temporal constraints) ,常规 RDBMS 并 不 具备 复杂 深入 的 功能 。 

3) 事务 时 间 

事务 时 间 (transaction time) 是 指 对 给 定数 据 库 对 象 进行 数据 操作 ,如 插入 、 删 除 或 修改 
的 时 间 , 即 一 个 事实 进入 并 存储 于 数据 库 当中 的 时 间 。 

事务 时 间 记 录 对 数据 库 操作 的 各 种 历史 情形 ,对 应 于 现 有 事务 或 现 有 数据 库 状态 变迁 
的 历史 。 例 如 ,数据 录入 数据 库 的 时 间 , 对 其 进行 查询 的 时 间 和 对 其 进行 删除 或 修改 的 时 
间 等 。 

事务 时 间 对 应 于 现 有 事务 或 现 有 数据 库 的 状态 变迁 历史 ,独立 于 相应 实际 应 用 ,用 户 不 
能 对 事务 时 间 进 行 任何 处 理 。 数 据 库 中 数据 录入 、 修 改 和 删除 的 时 间 由 系统 时 钟 决 定 , 每 次 
更 新 后 相应 时 间 数 据 不 可 再 了 予以 改变 ,因此 ,事务 时 间 也 称 为 系统 时 间 (system time) 。 

处 理事 务 时 间 的 方法 是 存储 所 有 数据 库 的 状态 , 即 处 理 一 个 事务 之 后 就 存储 一 种 数据 
库 状 态 。 任 何 对 数据 的 更 新 只 能 针对 最 后 一 个 状态 进行 ,但 可 查询 任意 一 个 状态 。 

事务 时 间 具 有 下 述 主 要 特点 。 

(1) 事务 时 间 取 值 由 系统 时 钟 给 出 ,独立 于 应 用 ,不 允许 用 户 对 事务 时 间 进 行 任何 修改 。 

(2) 最 新 记录 的 事务 时 间 不 能 晚 于 系统 当前 时 间 , 它 反映 数据 库 实际 操作 的 时 间 , 不 能 
表示 未 来 时 间 语 义 。 

需要 注意 有 效 时 间 和 事务 时 间 的 区 别 。 

(1) 有 效 时 间 标 识 一 个 数据 对 象 在 现实 的 世界 中 发 生 并 保持 的 时 间 , 或 者 说 使 得 该 数 
据 对 象 在 现实 世界 中 为 真 的 那 段 时 间 , 本 质 上 对 应 于 实际 应 用 的 需要 或 现实 世界 的 变化 。 


(2) 事务 时 间 记 录 逻 辑 上 被 存放 在 数据 库 的 时 间 , 反 映 记录 被 查询 .删除 和 修改 的 
时 间 。 

(3) 事务 时 间 与 有 效 时 间 相 互 独立 ,彼此 正 交 ,从 不 同方 面 描述 了 数据 和 数据 库 随 时 间 
演进 的 变化 过 程 。 

2. 时 态 数 据 库 

常规 数据 库 通常 只 保留 一 个 企业 或 单位 的 当前 状态 。 由 于 客观 事物 总 是 要 随 着 时 间 发 
展 变化 ,当前 状态 会 被 进一步 发 展 的 状态 所 取代 。 常 规 数据 库 作 为 时 间 维 度 上 的 一 个 快照 ， 
在 一 般 意 义 都 不 保存 历史 数据 。 在 实际 应 用 中 ,不 仅 当 前 信息 ,在 某 些 情况 下 过 去 已 有 信息 
甚至 将 来 预测 信息 都 非常 重要 。 例 如 ,人 事 管理 系统 中 的 个 人 履历 ,财务 系统 中 的 往来 账 
目 ,地 理 信 息 系统 中 的 各 种 地 质变 化 记录 ,医疗 系统 中 的 诊断 记录 和 病人 病历 等 。 这 就 要 求 
数据 库 能 够 在 不 同 的 时 间 维 度 上 充分 展开 ,有 效 管理 各 种 与 时 间 演 进 有 关 的 数据 信息 。 常 
规 数据 库 系统 如 RDBS 和 ODBS 也 可 以 从 事 时间 数 据 管 理 方面 工作 。 例 如 ,在 RDBS 中 ， 
可 以 将 元 组 的 生命 周期 用 一 个 属性 表示 ,即将 时 间作 为 普通 属性 进行 操作 。 既 然 时 间作 为 
了 普通 属性 , 则 当 进 行 关系 操作 如 查询 (选择 .投影 和 连接 ) 与 更 新 (插入 删除 和 修改 ) ,就 不 
可 避免 需要 对 时 间 属 性 进行 关系 运算 (关系 代数 和 关系 演算 )。 但 时 间 元 素 的 运算 有 其 自身 
特点 ,不 能 简单 纳入 常规 属性 范围 ,如 当 一 个 元 组 的 生命 周期 需要 用 时 间 元 素 表 示 时 就 得 到 
时 间 属性 值 的 非 原子 表示 ,常规 RDBMS 处 理 起 这 类 问题 相当 笨拙 。 实 践 表 明 ,如 果 直 接 使 
用 RDBS 等 管理 时 态 数据 ,通常 会 出 现时 间 描 述 粗 放 、 数 据 管理 困难 和 查询 结果 不 符合 常 
理 直 观 等 问题 。 特 别 是 有 关 时 间 运 算 相当 复杂 ,必须 借助 于 大 量 的 应 用 程序 ,脱离 了 数据 库 
管理 数据 的 本 意 , 增 加 系统 复杂 性 ,也 加 重用 户 负担 。 

【 例 6-1〗 设 有 如 表 6-4 所 示 关 系 表 ,各 个 元 组 有 效 时 间 (VTs,VTe) 分 别 表示 为 时 态 
属性 VTs 和 VTe。 执 行 下 述 SQL 语句 : 

SELECT Salary, VTs,VTe 

FROM TR 

常规 关系 数据 查询 结果 如 表 6-5 所 示 。 

表 6-4 具有 时 态 属 性 的 关系 表 TR 



































No Name | Salary Title Position VTs VTe 
0199804426 Raul 4500 Lecture Null 2008-07 2011-09 
0199804426 | Raul 6500 | Associate-Prof. Assistant-President 2011-10 2013-05 
0199804426 | Raul 9200 Professor Vice-President 2013-06 2014-08 
0199804426 | Raul 9200 Professor President 2014-08 2016-08 


表 6-5 常规 查询 结果 























Name Salary VTs VTe 
Raul 4500 2008-07 2011-09 
Raul 6500 2011-10 2013-05 
Raul 9200 2013-06 2014-08 
Raul 9200 2014-08 2016-08 
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在 表 6-5 所 示 的 查询 结果 中 ,第 3 元 组 和 第 4 元 组 非 时 态 部 分 完全 相同 ,而 时 态 部 分 
“可 连接 ”, 因 此 ,输出 如 表 6-6 所 示 结 果 就 会 更 加 自然 直观 ,同时 也 减少 了 数据 元 余 。 但 在 
常规 RDBS 中 却 必 须 以 表 6-6 形式 输出 。 如 果 和 希望 表 6-6 形式 , 则 需 通过 额外 应 用 程序 。 
事实 上 ,这 只 是 进行 常规 投影 操作 情形 ,在 选择 和 连接 操作 中 也 会 出 现 类 似 问 题 。 
表 6-6 符合 直观 的 查询 结果 








Name Salary VTs VTe 
Raul 4500 2008-07 2011-09 
Raul 6500 2011-10 2013-05 
Raul 9200 2013-06 2016-08 














一 般 而 言 ,DBMS 作用 就 是 将 各 种 基本 功能 装配 于 系统 之 中 ,而 不 是 通过 各 种 应 用 程 
序 来 完成 相应 数据 管理 任务 ,因此 ,研制 和 开发 TDBS 就 成 为 一 种 基本 需求 和 管理 时 态 数 
据 的 必然 。 

按 数据 时 间 维 度 不 同 , 时 态 数据 库 分 为 快照 数据 库 、 回 滚 数据 库 、 历 史 数据 库 和 双 时 态 
数据 库 4 种 类 型 。 但 通常 的 时 态 数据 库 (temporal database) 主要 指 后 3 种 类 型 。 

1) 快照 数据 库 

快照 数据 库 (snapshot database) 是 指 以 特定 时 刻 瞬 间 的 快照 进行 数据 库 建 模 。 

快照 数据 库 无 法 表示 属性 与 时 间 的 关系 ,不 具备 维护 状态 变迁 能 力 , 只 能 进行 当前 数据 
库 状 态 的 查询 和 更 新 ,难以 进行 对 历史 数据 查询 , 且 随 着 时 间 演 进 , 更 改 的 历史 数据 将 会 丢 
失 ,也 不 能 进行 含有 时 间 因 素 的 推理 。 

例如 ,快照 数据 库 难以 完成 下 述 查询 : 

“Raul 何 时 开始 担任 讲师 ?〈 如 果 他 现在 是 副教授 )”( 历 史 查询 ) 

“2016 年 9 月 18 日 的 记录 中 ,Raul 的 职务 是 什么 ?”( 历 史 查询 ) 

“在 过 去 3 年 里 ,中 山大 学 有 多 少 人 从 副教授 提升 为 教授 ?”( 趋 势 查询 ) 

“明年 ,Raul 是 否 能 够 晋升 为 博士 生 导师 ?”( 未 来 查询 ) 

“Raul 上 个 月 工资 由 9200 元 提升 为 12000 元 。”( 记 录 更 新 ) 

此 外 ,快照 数据 库 中 的 “快照 "和 RDB 中 的 “快照 * 有 所 不 同 。 

(1) RDB 中 的 “快照 ” 为 了 处 理 需 要 (如 年 底 结账 的 需要 ) 对 某 个 时 刻 ( 如 12 月 31 日 
23 时 59 分 59 秒 ) 数 据 库 中 数据 进行 独立 备份 。 

(2) 快照 数据 库 中 的 “快照 ”: 系统 只 存储 管理 数据 库 当 前 一 个 快照 状态 ,而 “快照 ” 状 
态 随 着 时 间 不 断 改 变 。 





vr 快照 数据 库 支持 用 户 定义 时 间 , 但 不 需要 区 分 数 
据 的 事务 时 间 和 有 效 时 间 。 如 图 6-4 所 示 , 快 照 数据 
Now F---—- fd - 库 可 看 作 是 沿 着 对 角 线 方向 前 进 。 
2 快照 数据 库 是 数据 库 当 前 的 一 个 感知 状态 , 且 


“快照 ”状态 随时 间 不 断 改变 。 快 照 数据 库 并 非 真 正 

意义 下 的 时 态 数据 库 ,只 反映 数据 当前 状态 ,时 间 推 

“ w 移 将 导致 快照 数据 库 状态 不 断 改 变 ,新 状态 将 覆盖 旧 
图 6-4 快照 数据 库 的 状态 。 





2) 回 滚 数据 库 
回 深 数据 库 (rollback database) 是 指 支持 数据 事务 时 间 的 时 态 数据 库 。 

回 滚 数据 库 中 数据 按照 事务 时 间 编 址 ,保存 过 去 每 次 事务 提交 和 状态 演变 之 前 的 状态 。 
从 RDB 进行 事务 时 间 的 时 态 扩充 角度 考虑 ,可 以 将 回 滚 数 据 库 中 的 数据 文件 看 作 是 由 三 维 
回 滚 关系 组 成 的 , 即 在 传统 属性 维和 元 组 维基 础 上 增加 事务 时 间 维 。 因 此 , 回 滚 数据 库 中 的 
数据 表 可 以 看 作 一 个 按时 间 索 引 的 数据 库 序列 ,每 个 时 间 点 都 对 应 一 个 二 维 快照 数据 库 。 
回 滚 数据 库 记 录 数 据 库 的 自身 变化 ,实现 方式 是 沿 着 事务 时 间 轴 记录 数据 状态 ,按照 事务 时 
间 排 序 保 留 所 有 状态 的 演变 历史 ,可 被 看 作 是 只 能 进行 数据 追加 的 数据 库 ,但 不 能 用 来 记录 
数据 库 的 未 来 状态 。 执 行 一 次 更 新 语句 都 将 产生 一 个 新 的 数据 库 状 态 。 新 状态 不 会 覆盖 旧 
状态 ,这 是 因为 系统 是 通过 将 一 个 元 组 的 事务 结束 时 间 设 为 执行 语句 的 当时 时 间 而 实现 数 
据 的 逻辑 删除 ,因此 没有 元 组 会 被 物理 删除 ,元 组 的 事务 时 间 期 间 可 以 看 作为 该 元 组 在 快照 
数据 库 中 存在 的 历史 。 

作为 一 个 由 事务 时 间 索 引 的 数据 库 序 列 , 回 滚 数据 库 在 前 一 个 事务 时 间 内 提交 的 数据 ， 
即使 在 下 一 个 事务 时 间 没 有 数据 改变 或 者 改变 很 小 时 ,也 需 将 所 有 数据 重新 输入 及 存储 , 带 
来 较 大 的 数据 宛 余 ,这 在 只 进行 较 小 数量 数据 改变 时 更 为 突出 。 在 回 滚 数据 库 中 ,过 去 数据 
只 能 查询 而 不 可 修改 。 如 果 发 现 已 有 数据 存在 错误 , 当 此 时 事务 已 经 提交 后 就 不 可 予以 变 
更 ,只 能 是 等 待 下 次 系统 的 事务 时 间 时 才 进 行 新 的 改动 。 但 改动 的 只 是 提交 前 的 数据 , 即 最 
近 一 个 事务 时 间 点 的 数据 ,此 前 的 状态 并 不 能 再 改变 。 

3) 历史 数据 库 

快照 数据 库 考 察 特定 时 刻下 现实 世界 的 一 个 状态 ,反映 了 某 一 个 瞬间 的 情况 。 由 如 
表 6-7 所 示 的 快照 数据 库 中 可 知道 相应 教师 的 一 些 基本 信息 。 


表 6-7 快照 数据 关系 























No. Name Birthday Title 
0199804426 Raul 1969-06-06 Lectuer 
0199804427 White 1966-07-08 Prof. 
0199804428 Bush 1963-08-16 Prof. 





对 于 “Raul 在 两 年 前 是 否 为 副教授 "这 类 历史 查询 ,除非 对 快照 数据 关系 结构 进行 特殊 
的 应 用 程序 处 理 ,否则 将 难以 得 到 所 需 结 果 。 为 解决 此 类 问题 ,就 需 引 入 历史 数据 库 。 

历史 数据 库 (historical database) 是 指 存储 数据 有 效 时 间 的 时 态 数 据 库 , 存 储 现实 世界 
在 有 效 时 间 点 处 或 有 效 时 间 期 间 内 的 事件 和 状态 变化 。 

在 表 6-7 所 示 的 快照 数据 关系 中 添加 有 效 时 间 支 持 ,并 将 其 中 部 分 改写 为 如 表 6-8 所 
示 ,就 成 为 历史 数据 库 中 时 态 关系 数据 表 。 


表 6-8 添加 有 效 时 间 的 时 态 数据 关系 


























No. Name Birthday Title VTIs VTe 
0199804426 Raul 1967-09 Lecture 2008-07 2011-09 
0199804426 Raul 1967-09 Associate-Prof. 2011-10 2013-05 
0199804426 Raul 1967-09 Professor 2013-06 2016-08 
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续 表 

No Name Birthday Title VTs VTe 
0199804427 White 1969-02 Associate -Prof. 2012-08 2015-08 
0199804427 White 1969-02 Professor 2015-09 2016-09 
0199804428 Bush 1973-10 Lecture 2013-08 2016-08 
0199804428 Bush 1973-10 Associate-Prof. 2016-09 2017-09 




















若 当前 为 2016 年 ,对 于 上 述 "Raul 两 年 前 是 否 为 副教授 ?” 时 态 查 询 , 则 可 知 两 年 前 , 即 
2014 年 Raul 已 经 不 是 副教授 而 是 教授 了 。 

相对 于 快照 数据 库存 储 数据 库 当 前 状态 信息 ,历史 数据 库 通过 支持 有 效 时 间 而 增加 系 
统 所 包含 的 历史 数据 信息 量 ,方便 人 们 对 历史 数据 信息 的 查询 和 处 理 。 

回 滚 数据 库 记 录 数 据 库 状态 的 事务 变迁 ,历史 数据 库 记 录 了 数据 对 象 状 态 的 现实 变迁 。 

从 RDB 进行 有 效 时 间 的 时 态 扩充 角度 来 看 ,历史 数据 文件 是 由 具有 属性 维 、 元 组 维和 
有 效 时 间 维 构成 的 三 维 关系 表 。 其 中 ,有 效 时 间 维 度 反映 了 相应 由 属性 维和 元 组 维 构成 二 
维 关系 数据 的 “生命 周期 ”, 使 得 相关 数据 信息 更 为 丰富 ,对 客观 事实 的 描述 表现 更 为 深入 。 
从 原理 探讨 和 技术 实现 的 角度 来 说 ,历史 数据 库 是 时 态 数据 库 的 研究 主题 和 基础 。 

4) 双 时 态 数据 库 

回 滚 数据 库 是 依照 事务 时 间 索 引 的 数据 库 快 照 系 列 , 历 史 数据 库 通过 有 效 时 间 存 储 事 
物 的 生命 周期 ,可 否 建立 一 种 能 够 同时 处 理事 务 时 间 和 有 效 时 间 的 时 态 数据 库 呢 ? 

双 时 态 数据 库 (bitemporal database) 就 是 同时 支持 数据 事务 时 间 和 有 效 时 间 的 时 态 数 
据 库 。 

从 RDB 进行 事务 时 间 和 有 效 时 间 的 时 态 扩充 角度 来 看 , 双 时 态 数据 库 由 四 维 时 态 关 系 
表 系 列 组 成 。 其 中 ,两 个 是 常规 属性 维度 和 元 组 维度 ; 另外 两 个 是 事务 时 间 维 度 和 有 效 时 
间 维 度 。 由 此 可 知 ,一 个 双 时 态 关 系 可 以 看 成 是 一 个 按照 事务 时 间 索 引 的 历史 关系 的 序列 。 
双 时 态 数据 架构 如 图 6-5 所 示 。 

在 时 态 关 系 的 数据 操作 中 ,其 回 滚 操作 即 是 选取 一 个 特定 的 历史 关系 ,其 查询 操作 即 是 
对 该 历史 关系 进行 查询 ; 同时 每 一 个 更 新 的 事务 操作 即 是 创建 一 个 新 的 历史 关系 表 。 

双 时 态 关 系 的 一 种 实现 方法 是 组 合 回 滚 数据 库 和 历史 数据 库 成 为 新 的 数据 库 。 

一 个 常规 关系 元 组 在 历史 数据 库 中 的 四 个 有 效 时 间 片 段 组 合 如 图 6-6 所 示 , 图 中 是 在 
原 有 回 滚 关 系 的 三 维 结构 之 上 添加 第 四 个 维度 一 -有 效 时 间 维 度 ,而 使 得 相应 数据 库 具 有 
了 四 维 结构 。 
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图 6-5 双 时 态 数据 架构 图 6-6” 双 时 态 数 据 关系 的 两 个 时 间 维度 


在 事务 维度 中 截取 事务 时 间 点 就 可 找到 相应 元 组 的 有 效 时 间 段 ,不 同事 务 时 间 点 对 应 
不 同 有 效 时 间 段 。 同 时 ,相同 的 有 效 时 间 段 也 可 对 应 不 同 的 事务 时 间 点 ,如 图 6-6 中 事务 时 
间 点 Ti 和 T 对 应 同一 有 效 时 间 段 。 

实际 上 ,在 事务 时 间 轴 上 取 不 同时 间 点 就 产生 不 同 的 历史 数据 库 , 如 图 6-6 中 4 个 事务 
时 间 点 区 、T、Ts、T, 就 对 应 4 个 历史 数据 库 , 可 以 将 双 时 态 数据 库 看 作 是 基于 事务 时 间 点 
索引 的 历史 数据 库 系 列 。 由 于 是 对 相应 事务 时 间 点 的 “截取 ”, 因 此 ,这 4 个 数据 库 是 分 别 是 
4 个 事务 时 间 的 快照 ; 又 因为 每 个 数据 库 里 面 的 记录 是 历史 数据 库 属 性 的 ,记载 的 是 现实 
元 组 的 真实 变化 的 时 间 ,而 非 数 据 库 事务 状态 变化 的 时 间 , 所 以 就 是 前 述 的 历史 数据 记录 ， 
可 以 在 其 中 进行 查询 与 更 新 的 常规 数据 操作 。 

双 时 态 数据 库 中 可 在 当前 时 间 点 对 以 前 的 事务 时 间 T, 时 的 该 元 组 属性 或 有 效 时 间 进 
行 改动 。 例 如 ,可 以 在 Ti 时 间 对 T, 时 的 历史 快照 数据 库 进行 修改 ,通过 改变 有 效 时 间 期 
间 ts 和 为 ti 和 zs, 使 得 在 TT 时 的 快照 历史 数据 库 中 的 元 组 属性 (时 间 属 性 ) 得 到 了 改 
变 。 但 原先 事务 时 间 不 能 改动 ,只 是 增加 了 一 个 新 的 记录 ,该 记录 的 事务 时 间 是 T, ,记录 内 
容 是 把 原来 的 有 效 时 间 进 行 了 改变 。 


6.2 历史 关系 数据 模型 


历史 关系 数据 模型 (History Relational Data Model, HRDM) 由 James Clifford 于 1987 
年 提出 ,这 是 一 个 基于 有 效 时 间 的 时 态 数据 模型 。HRDM 基本 思想 是 为 常规 关系 表 中 的 基 
本 技术 单元 属性 ( 值 )、 元 组 和 关系 表 赋予 满足 相应 约束 条 件 的 有 效 时 间 标 签 。 


6.2.1 HRDM 概述 


给 定时 间 域 为 工 ,其 中 工 由 时 间 期 间或 时 间 点 组 成 。 在 TDB 中 ,从 一 般 性 角度 考虑 ， 
通常 将 所 涉及 的 系统 时 间 域 看 作 T 的 圭 集 27 。 

1. 数据 对 象 有 效 时 间 

数据 对 象 的 有 效 时 间 实 际 上 可 看 作 其 生命 周期 ,而 生命 周期 通常 是 一 个 时 间 元 素 而 属 
于 系统 时 间 域 27, 它 表示 所 考虑 数据 对 象 在 现实 世界 为 * 真 ”的 时 间 。RDB 基本 数据 对 象 是 
属性 ( 值 ) 、 元 组 和 关系 表 , 因 此 需要 讨论 这 些 数据 对 象 的 有 效 时 间 问 题 。 

(1) 属性 值 有 效 时 间 : 属性 值 的 生命 周期 。 例 如 ,员工 工资 随 着 时 间 变 化 的 情况 如 表 6-9 
所 示 。 工 号 ID 为 “2010519795012”、 员 工 工资 为 3500 元 ,有 效 时 间 是 2010 年 到 2013 年 , 即 
“工资 为 3500 元 的 生命 周期 为 2010 一 2013 年 ”; 类 似 , “工资 为 4200 元 的 生命 周期 为 2014 
2015 年 ”和 “工资 为 5900 元 的 生命 周期 为 2016 年 到 Now”。 作 为 属性 时 间 变 化 表述 的 时 间 期 
间 [2010,2013),[2013,2015) 、[2016,Now) 等 就 是 相应 工资 属性 值 生命 周期 即 有 效 时 间 。 另 
外 ,此 时 属性 值 *?2010519795012” 没 有 显 式 赋 了 予 有 效 时 间 , 实 际 上 由 于 “2010519795012” 是 键 值 ， 
其 生命 周期 应 该 由 整个 关系 表 生 命 周 期 所 确定 ,因此 可 以 将 关系 表 中 所 有 “ 键 值 ” 的 有 效 时 
间 都 看 作 “ 常 值 * 即 所 在 关系 表 的 有 效 时 间 。 

(2) 元 组 有 效 时 间 : 整个 元 组 自身 的 生命 周期 。 如 表 6-9 所 示 ,ID 为 *2010519795012” 
元 组 有 效 时 间 为 [2010,Now)。 

(3) 关系 表 有 效 时 间 : 可 以 理解 为 组 成 其 所 有 元 组 的 有 效 时 间 的 并 集 。 
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表 6-9 员工 工资 随 着 时 间 变 化 的 情况 








ID(key) Salary Valid time 
3500[2010,2013) 
2010519795012 4000[2014,2015) [2010,Now) 





6000[2016 ,Now) 











整合 了 有 效 时 间 标 签 的 属性 ( 值 ) .元 组 和 关系 通常 分 别称 为 时 态 属性 、 时 态 元 组 和 时 态 

从 直观 上 考虑 ,属性 值 有 效 时 间 不 应 超过 所 在 元 组 有 效 时 间 , 元 组 有 效 时 间 不 应 超过 所 在 
关系 表 生 命 周 期 ,由 此 可 得 ,时 态 属性 .时 态 元 组 和 时 态 关系 表 之 间 的 时 态 语义 约束 条 件 为 : 

属性 有 效 时 间 忆 元 组 有 效 时 间 忆 关系 有 效 时 间 

对 于 上 述 属 性 和 元 组 有 效 时 间 表 述 而 言 ,由 于 有 效 时 间 标 签 一 般 是 时 间 元 素 ,因此 相应 
关系 表 可 能 是 非 INF ,并 且 属 性 值 和 元 组 相应 有 效 时 间 标 签 可 能 互 不 相同 。 如 果 设 定 相应 
关系 表 满 足 INF ,就 需要 应 用 经 典 关 系 模式 规范 中 的 非 INF 解构 为 1NF 方法 ,由 于 有 前 述 
时 态 约 东 ,解构 后 关系 模式 中 属性 有 效 和 元 祖 有 效 时 间 就 会 彼此 相同 。 

2. HRDM 

历史 关系 数据 模型 (HRDM) 就 是 将 上 述 对 属性 值 和 元 组 有 效 时 间 赋 值 的 严格 化 和 形 
式 化 。HRDM 建立 在 时 间 域 T 与 相关 属性 域 的 映射 基础 之 上 。 

1) 有 效 时 间 赋 值 映射 

HRDM 的 基本 点 是 为 每 个 属性 ( 值 )、 元 组 和 关系 表 赋 予 适当 的 有 效 时 间 标 签 , 使 其 成 
为 时 态 属性 、 时 态 元 组 和 时 态 关 系 。 从 形式 化 角度 考虑 ,这 实际 上 就 是 建立 起 属性 集合 、 元 
组 集合 和 关系 集合 到 时 间 域 上 的 相关 映射 。 

设 有 关系 属性 集合 {A ,A:, ,…',A。} ,对 应 属性 值 域 集 为 {Di ,D: ,…,Du},T 为 时 间 期 
间 ( 时 间 点 ) 集 合 即 工 为 时 间 域 ,27 为 了 的 寡 集 。 

(1) 属性 值 有 效 时 间 赋 值 映 射 VTD;: 对 于 每 个 属性 值 域 Di ,定义 有 效 时 间 赋 值 映 射 
VTDi: Di 一 27(1 入 i 委 mm) 。 

(2) 属性 值 有 效 时 间 常 值 映 射 CT: 对 于 一 个 属性 值 域 或 属性 域 集合 Du ,定义 由 属性 值 
域 D, 到 工 的 常 值 映射 CT(D,): Do 一 to ,to 为 时 间 域 工 中 一 给 定 值 。 

(3) 元 组 有 效 时 间 赋 值 映射 VTT;: 对 于 关系 表 R 中 所 有 元 组 构成 集合 {TT ,TT ,…， 

} ,定义 元 组 有 效 时 间 赋 值 映射 VTT;: Ti 一 27(1 坟 jn)。 

2) HRDM 基本 概念 

基于 HRDM 模型 的 时 态 关 系 模式 TR 为 满足 时 间 约 束 TC 的 五 元 组 : 

TR=< A(TRY,K(TRI (VTDIN amr {VTThes CT(E(CTRDS 

(1) ACTR): TR 所 有 属性 集合 {Al ,A ，…,A,}。 

(2) K(TR) : TR 主键 属性 集合 。 

(3) {VTDi)h<i<n: 属性 域 到 时 间 域 的 映射 集合 

(4) {VTT ji<i<s ,元 组 集合 到 时 间 域 的 喘 射 集合 

(5) CT(K(TR): 键 值 集合 到 时 间 域 的 常 值 映射 。 








时 态 约 束 条 件 TC 如 下 。 
设 Tu 是 时 态 关 系 TR 中 的 任意 元 组 ,ak 是 元 组 Tu 一 < al ,az ,…,as > 中 属性 值 , 则 : 
VTSVTCTJSEVTCTR)CG 和 As 

3) HRDM 属性 值 非 INF 性 质 

由 于 HRDM 是 常规 关系 的 时 态 扩充 ,因此 元 组 数据 的 语义 标识 还 是 主键 。 主 键 的 基 
本 性 质 是 相应 元 组 的 唯一 标识 性 ,因此 和 常规 关系 情形 类 似 。 在 HRDM 数据 模式 中 ,时 态 
关系 TR 中 不 允许 出 现 主 键 值 相同 的 两 个 元 组 , 即 

VTtup TtupsETR,Key(CTtup, ) 关 KeyCTtup:) 

由 于 历史 数据 库 需 要 记录 同一 数据 对 象 在 不 同时 间 的 状态 和 性 质 ,这 也 包括 同一 属性 
在 不 同时 间 范 围 内 中 的 不 同 取 值 ,因此 HRDM 关系 中 确定 主键 值 所 在 元 组 中 的 属性 取 值 
不 会 是 完全 满足 INF ,这 也 就 导致 了 HRDM 中 的 属性 取 值 通常 具有 非 1NF 性 质 。 

基于 HRDM 时 态 关 系 ,TR 可 以 表示 为 时 态 关系 元 组 Ttup 的 集合 ,其 中 Ttup = 
<{ar)i<t<s，VT(Ttup)>,ar 是 元 组 中 第 & 个 属性 的 时 态 取 值 。 由 上 述 分 析 可 知 ,ak 一 般 应 
为 如 下 的 非 1NF 形式 , 即 

人 一 <(U(Cak)，VTCo(Car))) (uCar)，VTCu (ar))) (op(Cakr), VTCo(Car)))> 
即 wx 是 相应 数据 值 w(eks) 和 有 效 时 间 标 签 VTCu(ax)) 构 成 二 元 组 的 一 个 有 序 组 (1 过往 记 ) 。 

例如 ,在 表 6-9 中 ,ID( 主 键 ) 为 2010519795012 的 元 组 中 Salary 属性 值 可 表示 为 : 

ax=<(3500, [2010,2013)),(4000, [2014,2015)),(6000, [2016,Now)) 

HRDM 模型 简洁 直观 ,容易 掌握 ,基本 要 点 是 在 常规 RDB 上 添加 上 属性 和 元 组 的 生命 
周期 从 而 对 经 典 RDB 进行 兼容 扩展 。 作 为 时 态 数据 库 , 基 于 HRDM 建立 的 是 历史 数据 库 
只 能 管理 对 象 的 历史 ,不 能 管理 数据 库 本 身 搬 删改 的 历史 即 事务 时 间 。 

在 HRDM 中 , 当 有 效 时 间 退 缩 为 一 点 [t,t) 时 ,得 到 在 1 时刻 的 快照 数据 库 , 此 时 HRDM 所 
有 运算 都 退化 为 传统 关系 运算 ,而 传统 RDB 当前 状态 可 视 为 在 时 间 期 间 [Now,Now) 的 特例 。 

RDM 中 许多 基本 运算 的 规则 都 可 平移 到 HRDM ,如 选择 运算 的 交换 律 、 结 合 律 及 与 其 
他 运算 的 分 配 律 等 。 


6.2.2 HRDM 数据 操作 


在 RDB 引 入 有 效 时 间 后 ,关系 代数 操作 将 具有 一 些 新 的 特点 和 变化 。 下 面 介绍 
HRDM 中 时 态 关 系 操作 ,即时 态 数 据 更 新 和 时 态 数 据 查询 。 

1. 时 态 数 据 更 新 

关系 数据 更 新 的 基本 操作 是 数据 删除 和 数据 插入 。 对 于 基于 HRDM 的 时 态 关 系 而 
言 ,由 于 不 允许 存在 主键 相同 的 两 个 元 组 ,按照 元 组 的 标识 唯一 性 就 可 以 进行 与 常规 关系 类 
型 的 数据 删除 操作 ; 但 由 不 同 元 组 主键 值 必须 不 同 却 导 致 了 数据 插入 时 需要 考虑 的 新 的 情 
形 。 实 际 上 ,时 态 关 系 中 插入 新 元 组 时 有 如 下 两 种 不 同 的 情形 。 

(1) 插入 元 组 主键 与 表 中 任何 元 组 主键 都 不 相同 ,此 时 按照 常规 关系 方法 实现 插入 操作 。 

(2) 插入 元 组 主键 和 某 个 已 有 元 组 主键 相同 ,此 时 需要 完成 下 述 操作 。 

@ 当 插入 元 组 和 该 已 有 元 组 完全 相同 即 两 者 所 有 属性 值 和 属性 值 有 效 时 间 都 相同 时 ， 
类 似 于 常规 RDB, 两 元 组 只 保留 其 一 。 

@ 对 于 存在 属性 值 相同 而 属性 有 效 时 间 不 同 的 情形 ,相应 有 效 时 间 存 在 包含 关系 , 取 
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“小 ?的 有 效 时 间作 为 相应 属性 值 新 的 有 效 时 间 耶 以 保留 。 
@ 对 于 属性 值 和 相应 有 效 时 间 都 不 相同 的 情形 ,将 插入 元 组 和 该 已 有 元 组 对 应 属性 值 


进行 归并 。 


【 例 6-2〗 设 有 如 表 6-10 所 示 时 态 关系 表 。 
表 6-10 时 态 关系 表 


Name 


Salary 


Valid time 





Peter 


3500[2010,2011) 





4000[2012,2013) 





6000[2014, Now) 


[2010, Now) 





Bush 


3300[2008,2010) 





4500[2011,2013) 








6000[2014, Now) 


插入 如 表 6-11 和 表 6-12 所 示 两 个 时 态 关系 元 组 。 


Peter 


Bush 


表 6-11 新 插入 Peter 元 组 
4000[2012,2013) 








6000[2014,2015) 





7500[2016, Now) 


表 6-12 新 插入 Bush 元 组 
4500[2011,2013) 





6000[2014,2015) 








7600[2016 ,Now) 





[2008,Now) 


[2012,Now) 


[2011,Now) 


对 于 新 搬入 Peter 元 组 中 时 态 属性 值 *4000[2012,2013)” 而 言 ,其 与 表 6-10 中 原 有 元 组 
中 相应 时 态 属 性 值 *4000[2012,2013)” 相 同 ,保留 其 一 。 

新 插入 时 态 属 性 值 *6000[2014,2015)” 与 原 有 时 态 属性 值 *6000[2014, Now)” 中 只 有 了 时间 
标签 不 同 ,而 [2014,2015) 忆 [2014,Now), 所 以 予以 保留 的 新 时 态 属性 值 为 “6000[2014,2015)”。 

另外 ,新 插入 时 态 属性 值 *7500[2016 ,Now) ”直接 归并 到 相应 属性 列 。 

对 于 新 插入 Bush 元 组 也 类 似 处 理 。 插 入 表 6-11 所 示 元 组 后 的 时 态 关 系 表 如 表 6-13 所 示 。 





Name 


表 6-13 插入 更 新 后 的 关系 表 


Salary 


Valid time 





Peter 


3500[2010,2011) 





4000[2012,2013) 





6000[2014,2015) 





7500[2016, Now) 


[2010, Now) 





Bush 


3300[2008,2010) 





4500[2011,2013) 





6000[2014,2015) 








7600[2016 ,Now) 





[2008,Now) 


2. 时 态 数据 查询 

基于 HRDM 数据 查询 也 分 为 投影 .选择 和 连接 3 种 情形 。 

1) 时 态 投影 

时 态 关 系数 据 的 投影 运算 与 RDB 中 类 似 , 只 是 投影 运算 后 需 根据 情况 将 属性 值 或 元 组 
归并 ,并 将 相应 有 效 时 间 进行 调整 。 由 于 HRDM 时 态 关系 允许 属性 值 取 非 INF, 由 此 时 态 
属性 值 和 时 态 元 组 的 归并 比较 复杂 ,通常 需要 考虑 到 实际 应 用 。 

【 例 6-3】〗 设 有 如 表 6-14 所 示 的 某 单位 的 历史 数据 时 态 关 系 表 。 


表 6-14 ”历史 数据 时 态 关系 表 














Name Title Salary Valid time 
Lecture[2010,2011) 3500[2010,2011) 
Associate-Prof. 4000[2012,2013) 
Peter [2010,Now) 
[2012,2015) 6000[2014,2015) 





Prof. [2016, Now) 7500[2016, Now) 
Lecture[2008,2013) | 3300[2008,2010) 
Associate-Prof. 4500[2011,2013) 
[2014,2015) 6000[2014,2015) 
Prof. [2016,Now) 7600[2016 ,Now) 








Bush 





[2008, Now) 














现在 需要 了 解 一 个 单位 中 Lecture、Associate-Prof. 和 Prof. 职称 设置 信息 ,如 “在 怎样 
时 间 期 间 内 有 讲师 ”和 "在 怎样 的 时 间 期 间 内 有 高 级 职称 (副教授 和 教授 )" 等 。 此 时 查询 可 
以 分 为 两 个 步骤 。 

步骤 1: 将 其 进行 Title 属性 的 常规 投影 操作 ,如 表 6-15 所 示 。 


表 6-15 在 Title 属 性 的 常规 投影 


Title Valid time 
Lecture[ 2010,2011) 
Associate-Prof. [2012 ,2015) [2010, Now) 
Prof. [2016, Now) 
Lecture[2008,2013) 
Associate-Prof. [2014,2015) [2008,Now) 
Prof. [2016 ,Now) 























步骤 2: 将 上 述 结果 调整 归并 ,如 表 6-16 所 示 。 
表 6-16 进行 归并 调整 


Title Valid time 


Lecture[2008,2013) [2008,2013) 
Associate-Prof. [2012,2015) 














2012,Now) 
Prof. [2016 ,Now) [ 


2) 时 态 选择 
HRDM 在 常规 关系 数据 模式 基础 上 增加 了 数据 有 效 时 间 ,时 态 关 系 选择 操作 除 对 非 时 
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态 属性 进行 通常 选择 运算 外 还 要 进行 相应 有 效 时 间 的 选择 操作 。 选 择 运算 基础 是 相应 的 谓 
词 选择 表达 式 ,为 此 需要 引入 时 态 选 择 谓词 表达 式 。 
时 态 选 择 谓词 表达 式 是 由 逻辑 运算 符 (V、A 人 、” ) 、 关 系 运算 符 ( 二 ,二 ,一 ,三 ,一 , 隆 )、 
合 运算 符 (U . 门 一) 和 Allen 时 态 关 系 运算 符 组 成 的 谓词 表达 式 。 
时 态 选 择 操作 就 是 在 时 态 关 系 表 中 选择 出 满足 给 定时 态 选 择 谓词 表达 式 所 有 元 组 。 按 
照 选 择 结 果 中 有 效 时 间 标 签 是 否 发 生 改 变 , 基 于 HRDM 时 态 关 系 选择 操作 可 以 分 为 两 种 





情形 。 
(1) Select_IF 选择 。 类 似 常规 关系 表 选 择 操作 ,选择 出 元 组 的 有 效 时 间 与 关系 表 中 相 
应 元 组 相同 。 


【 例 6-4】 设 有 如 表 6-17 所 示 时 态 关 系 表 。 
表 6-17 时 态 关系 表 




















Name Salary Valid time 
3500[2009,2010) 
4000[2011,2012) 

Peter [2009, Now) 
6000[2013,2015) 
7500[2016, Now) 


对 上 述 时 态 关 系 进行 操作 Select_IFswwy=eo00n[z014.2015) ,选择 结果 如 表 6-18 所 示 。 
表 6-18 Select_IF 选择 操作 
Name Salary Valid time 





Peter 6000[2013,2015) [2009, Now) 


由 此 可 知 ,Select_IF 选择 只 排除 不 合格 的 对 象 , 不 缩小 对 象 在 有 效 时 间 维 上 的 尺寸 ,可 
以 看 作 只 是 数据 事务 维度 上 的 筛选 。 
(2) Select_When 选择 。 先 进行 Select_IF 选择 ,将 时 态 选 择 谓词 表达 式 中 有 效 时 间作 
为 选择 结果 的 有 效 时 间 标 签 。 
对 于 表 6-17 所 示 时 态 关系 执行 选择 Select_Whenswwry-6o00h[z014,2015) ,选择 结果 如 表 6-19 
所 示 。 
表 6-19 Selest_When 选择 操作 


Name Salary Valid time 
Peter 6000[2014,2015) [2014,2015) 





由 此 可 知 ,Select_When 不 但 排除 了 不 合格 的 元 组 ,而 且 还 在 时 间 维 上 排除 了 不 合格 的 
部 分 ,可 以 看 作 是 关于 数据 事务 和 时 间 维度 上 的 双重 筛选 运算 。 

3) 时 态 连 接 

作为 常规 关系 连接 运算 拓展 , HRDM 时 态 关 系 上 时 态 连接 操作 还 需 考 虑 有 效 时 间 
因素 。 

两 个 HRDM 时 态 关 系 进 行 时 态 连接 操作 的 步骤 如 下 。 

(1) 选择 出 满足 常规 连接 条 件 的 元 组 。 


(2) 对 于 这 样 常规 可 连接 的 两 个 元 组 ,考察 元 组 有 效 时 间 是 否 有 交 。 如 果 相 交 , 则 连接 


后 元 组 有 效 时 间 就 是 这 两 有 效 时 间 的 交集 ,否则 不 可 进行 时 态 连接 。 


(3) 检查 连接 后 属性 值 数 据 的 有 效 时 间 是 否 包含 在 连接 元 组 有 效 时 间 之 内 ,如 果 是 , 则 
保留 。 否 则 , 当 有 交 时 ,以 交 作为 相应 有 效 时 间 ; 无 交 时 ,删除 该 属性 值 数 据 。 
【 例 6-5】〗 设 有 如 表 6-20 和 表 6-21 所 示 HRDM 时 态 关 系 TR 和 TR, 。 


Name 


表 6-20 时 态 关 系 TR， 


Salary 


Valid time 





Peter 


3500[2008,2011) 





4000[2012,2013) 





6000[2014,2015) 





7500[2016, Now 


[2008, Now) 





Bush 


Name 


3300[2009,2010) 





4500[2011,2013) 





6000[2014,2015) 








7600[2016 ,Now) 


表 6-21 时 态 关 系 TR; 


Title 





[2009, Now) 


Valid time 





Peter 


Lecture[2010,2011) 





Associate-Prof. [2012 ,2015) 





Prof. [2016, Now) 


[2010, Now) 





Bush 


Lecture[2010,2011) 





Associate-Prof. [2012 ,2014) 








Prof. [2014, Now) 





[2010, Now) 


对 于 Name 属性 进行 自然 连接 ,以 可 连接 元 组 有 效 时 间 的 交 作 为 连接 后 元 组 的 有 效 时 
间 ,得 到 如 表 6-22 所 示 连 接 结果 。 





表 6-22 自然 连接 结果 



































Name Title Salary Valid time 
Lecture[2010,2011) 3500[2008,2011) 
Associate-Prof. [2012,2015) 4000[2012,2013) 
Peter [2010,Now) 
6000[2014,2015) 
Prof. [2016 ,Now) 
7500[2016,Now) 
Lecture[2010,2011) 3500[2009,2010) 
Associate Prof. [2012,2014) 4500[2011,2013) 
Bush [2010,Now) 
6000[2014,2015) 
Prof. [2015 ,Now) 
7600[2016,Now) 


Peter 元 组 Salary 属性 值 的 第 一 个 数据 有 效 时 间 [2008,2011) 调 整 为 其 与 元 组 有 效 时 
间 [2010, Now) 的 交 [2010,2011)。 
Bush 元 组 Salary 属性 值 的 第 一 个 数据 有 效 时 间 [2009,2010) 与 元 组 有 效 时 间 [2010， 
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Now) 交 为 空 ,该 数据 需要 删除 。 
调整 后 即 得 到 时 态 连接 TR, XTR; ,如 表 6-23 所 示 。 


表 6-23 ”时 态 连接 TR, XTR; 
































Name Title Salary Valid time 
Lecture[2010,2011) 3500[2010,2011) 
Associate-Prof. [2012,2015) 4000[2012,2013) 
Peter [2010,Now) 
6000[2014,2015) 
Prof. [2016 ,Now) 
7500[2016 ,Now) 
Lecture[2010,2011) 4500[2011,2013) 
Bush Associate-Prof. [2012,2014) 6000[2014,2015) [2010,Now) 
Prof. [2015,Now) 7600[2016, Now) 


6.3” 双 时 态 关 系数 据 模 型 


对 于 数据 库 而 言 ,数据 模型 和 相应 查询 语言 彼此 对 应 。 现 已 形成 标准 的 时 态 关 系 查 询 
语言 为 TSQL2, 它 由 成 立 于 1993 年 的 TSQL2 语言 设计 委员 会 在 1994 年 正式 颁布 。 作 为 
时 态 数 据 模型 及 数据 查询 研究 成 果 和 SQL92 的 结合 ,TSQL2 实际 上 建立 了 一 种 双 时 态 数 
据 模型 。 按 照 问题 的 侧重 点 不 同 ,TSQL2 双 时 态 数据 模型 可 分 为 以 下 两 种 主要 形式 。 

(1) 双 时 态 概念 数据 模型 (Bitemporal Conceptual Data Model,BCDMD) : 面向 查询 和 退 
辑 设 计 。 

(2) 表示 数据 模型 (Representational Data Model,RDM) : 面向 关系 平台 数据 存储 。 

自 1994 年 标准 提出 后 ,TDB 理论 研究 和 实际 中 使 用 的 数据 模型 通常 都 是 TSQL2 提出 
的 BCDM 及 RDM。 


6.3.1 双 时 态 概念 数据 模型 


作为 一 种 支持 有 效 时 间 和 事务 时 间 的 双 时 态 概念 模型 ,BCDM 出 发 点 是 实现 双 时 态 数 
据 语 义 而 非 数 据 实 际 存储 和 用 户 表示 , 它 在 概念 上 与 RDB 保持 兼容 ,使 得 TDB 中 的 任意 时 
间 快 照 关系 都 是 RDB 中 合法 的 数据 文件 。 

BCDM 是 指 对 关系 元 组 添加 双 时 态 标签 而 得 到 的 数据 结构 。 其 中 : 

T={(t,v)| t ELTs,Te),vELVs, Ve)} 

(1) Ts 和 Te: Ts 为 插入 该 元 组 时 刻 , 即 事务 时 间 起 始点 ; Te 为 修改 或 删除 该 元 组 
时 刻 。 

(2) Vs 和 Ve: Vs 为 元 组 生命 周期 起 始 时 刻 ; Ve 为 相应 终止 时 刻 。 

(3) itELTs,Te) 和 vE[LVs,Ve): 分 别 表示 事务 时 间 点 上 和 有 效 时 间 点 v。 

由 此 可 知 ,BCDM 中 元 组 的 时 间 标 签 为 分 别 表 示 事 务 时 间 和 有 效 时 间 的 双 时 态 标签 
(timestamp) ,而 时 间 标 签 一 般 为 T-V 双 时 态 平面 上 时 间 格 点 集合 ; 而 BCDM 中 的 时 态 关 
系 元 组 由 一 个 常规 关系 元 组 和 相应 的 双 时 态 标 签 组 成 。 

【 例 6-6】 一 个 基于 BCDM 时 态 关 系 元 组 实例 ,如 表 6-24 所 示 。 





表 6-24 一 个 基于 BCDM 时 态 关 系 元 组 实例 


Name Title | Salary Timestamp 





{(2013-06-01,2013-06-01)…(2013-06-01,2013-08-31) 
(2013-06-02,2013-06-01)…(2013-01-01,2013-08-31) 
Raul Prof. 9200 (2013-06-03,2013-06-01)*…(2013-01-02,2013-08-31) 


(uc,2013-06-01)… (uc,2016-08-31)} 








在 表 6-24 中 ,“Raul、 prof. 、9200” 是 常规 关系 vr 
元 组 ,其 后 部 分 就 是 相应 双 时 态 标签 。 

如 果 在 当前 时 刻 查 询 该 元 组 , 则 得 到 时 间 标 签 
为 图 6-7 所 示 TT-VT 平 面 中 阴影 方 框 中 所 有 时 间 
格 点 组 成 的 集合 ,而 每 个 格 点 都 是 由 事务 时 间 点 和 DEO 
有 效 时 间 点 组 成 的 二 元 组 。 1 1 

BCDM 具有 下 述 基本 性 质 。 9| 2013-06.01 

(1) 面向 查询 和 逻辑 设计 。 双 时 态 标签 结构 简 
单 , 逻 辑 上 可 看 作 是 以 事务 时 间 为 索引 的 时 间 元 素 
集合 ,便于 查询 和 优化 。 

(2) 非 时 间 属 性 取 值 原子 性 。BCDM 在 概念 和 请 义 上 与 关系 数据 模型 尽量 保持 兼容 ， 
除去 时 间 标 签 , 相 应 时 态 数据 退化 为 关系 数据 ,由 于 关系 模型 需要 具有 原子 性 ,BCDM 不 多 
许 出 现 除 时 间 标 签 外 其 他 值 都 相等 的 元 组 。 

(3) 递增 到 当前 时 刻 的 时 间 序 列 。 事 务 时 间 中 使 用 变量 uc, 这 是 一 个 以 给 定时 间 粒 度 为 
单位 的 递增 的 时 间 变 量 , 它 生成 一 个 从 起 始 时 间 开 始 .逐渐 递增 且 直 到 当前 的 时 间 序 列 。 

(4) 时 间 数 据 取 值 非 原子 性 。 由 于 时 间 标 签 是 时 间 元 素 ( 时 刻 二 元 组 ) 集 合 , 本 身 具有 
结构 而 非 INF, 因 此 基于 BCDM 时 态 关 系 元 组 中 的 时 间 标 签 不 能 称 为 时 间 “ 属 性 ”。 


6.3.2 表示 数据 模型 


由 于 常规 数据 库 一 般 并 不 支持 区 间 取 值 运算 ,如 要 在 [5,14) 中 取 值 12, 则 需要 将 [5， 
14) 中 所 有 时 间 都 进行 存储 ,仅仅 简单 存储 "5” 和 “14” 是 不 够 的 ,因此 BCDM 数据 模式 中 双 
时 态 标签 可 以 有 效 地 用 于 查询 处 理 ; 同时 ,由 于 可 以 简洁 明确 将 时 态 元 组 表示 为 常规 元 组 
和 双 时 态 标签 整合 的 形式 ,因此 也 方便 于 进行 模式 的 逻辑 设计 。 但 是 ,由 于 BCDM 模式 中 
的 uc 线性 时 间 递 增 ,整个 双 时 态 标签 表示 会 比较 庞杂 ,对 于 用 户 使 用 而 言 不 够 直观 和 便捷 。 
有 鉴于 此 ,Snodgrass 提出 与 BCDM 能 力 等 价 的 表示 数据 模型 (Represent Data Model, RDM)。 

RDM 数据 模型 : 数据 结构 为 形式 RCIA ,…,A; TTs,TTe,VTs,VTe) 

(1) Ai,…,Au, 为 常规 关系 数据 属性 。 

(2) TTs、TTe 分 别 表示 事务 时 间 的 起 始 时 刻 和 终止 时 刻 。 

(3) VTs、VTe 分 别 表 示 有 效 时 间 的 起 始 时 刻 和 终止 时 刻 。 

此 时 ,TTs、TTe 和 VTs、VTe 需要 成 对 出 现 .表示 相应 事务 时 间 和 有 效 时 间 分 别 为 时 
间 期 间 LTTs,TTe) 和 [LVTs, VTe)。 通 过 给 定时 间 粒 度 ,就 和 确定 相应 时 间 期 间 内 的 任何 
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图 6-7 BCDM 双 时 态 标签 
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时 间 点 。 
表 6-23 中 基于 BCDM 时 态 关系 元 组 使 用 RDM 表示 后 如 表 6-25 所 示 。 
表 6-25 基于 RDM 时 态 关 系 元 组 
Name Title Salary Ty TTe VTs VTe 





Raul Prof. 9200 2013-06-01 uc 2013-06-01 |2016-08-31 


【 例 6-7】 表 6-26 是 一 个 基于 RDM 时 态 关系 实例 。 
表 6-26 一 个 基于 RDM 时 态 关系 实例 
































Name Title Salary TYe TTe VTs VTe 
Black lecture 4000 2010-12-31 2012-12-31 2010-10-01 |2012-12-31 
Black lecture 4300 2013-01-01 uc 2013-01-01 |2014-05-31 
Black |Associate-Prof. 6500 2014-06-30 2015-12-31 2014-06-01 |2015-12-31 
Black |Associate-Prof. 7500 2016-01-01 uc 2016-01-01 Now 


与 BCDM 不 同 ,RDM 中 如 果 关 系数 据 属 性 即 (A ,As,…, A) 相同 ,而 时 间 标 签 不 同 也 
看 作 不 同 元 组 。 

设 Black 任 lecture 时 ,工资 从 4000 元 调整 到 4300 元 时 间 应 从 2013-03-01 开始 ,而 不 
是 从 2013-01-01 开始 ,这 个 错误 在 2013-03-01 修改 数据 时 得 到 纠正 。 此 时 , 表 6-26 中 第 1 
行 改 为 如 表 6-27 所 示 的 第 1、2 行 ; 表 6-26 中 第 2 行 改 为 如 表 6-27 所 示 的 第 3.4 行 。 其 中 ， 
表 6-27 示 的 带 有 阴影 的 第 2 行 和 第 4 行为 当前 快照 行 。 

表 6-27 修改 后 数据 在 RDM 中 的 表示 






































Name Title Salary TTs TTe VTs VTe 
Black lecture 4000 2010-12-31 2012-12-31 2010-10-01 |2012-12-31 
Black lecture 4000 2013-03-01 uc 2013-03-01 2014-05-31 
Black lecture 4300 2013-01-01 2013-03-01 2013-01-01 2014-05-31 
Black lecture 4300 2013-03-01 uc 2013-03-01 |2014-05-31 
Black |Associate-Prof. 6500 2014-06-30 2015-12-31 2014-06-01 |2015-12-31 
Black |Associate-Prof. 7500 2016-01-01 uc 2016-01-01 Now 

RDM 具有 下 述 性 质 。 

(1) 时 间 标 签 原子 性 。TT TIe 、VTs 、VTe 是 原子 属性 ,满足 1NF 条 件 , 像 关系 数据 一 

样 处 理 。 


(2) 时 间 标 签 区 分 性 。RDM 允许 存在 只 有 时 间 标 签 不 同 而 常规 关系 元 组 相同 的 元 组 。 
(3) 面向 存储 性 。 基 于 RDM 时 态 关 系数 据 可 节省 大 量 存储 空间 ,但 在 查询 处 理 时 需 
进行 适当 处 理 , 通 常 是 转换 为 BCDM 形式 。 


6.4 时 间 变 量 


当时 态 关系 中 时 间 期 间 的 时 间 点 尚未 到 达 终 点 而 实际 应 用 场景 中 又 需要 不 断 单调 增加 
时 ,就 需要 引入 时 间 变 量 概念 。 时 间 变 量 分 为 有 效 时 间 变 量 Now、 事 务 时 间 变 量 uc 和 当前 


时 间 变 量 CT 3 种 情形 。 时 间 变 量 在 施行 数据 操作 时 需要 和 具体 时 间 绑 定 。 

(1) 当前 时 间 变 量 CT: 进行 实际 数据 操作 的 时 间 ,与 系统 当前 时 间 绑 定 。 

(2) 事务 时 间 变 量 uc: 进行 数据 事务 操作 的 时 间 。 

(3) 有 效 时 间 变 量 Now: 表示 数据 生命 周期 一 直 延 续 到 “当前 ”或 “现在 ”都 还 未 结束 。 

CT 是 系统 当前 时 间 的 一 种 逻辑 表示 ,uc 作为 系统 时 间 的 事务 时 间 终 点 可 以 由 系统 自 
动 绑 定 ; 但 Now 由 于 事务 时 间 相 对 于 有 效 时 间 的 技术 “延迟 性 ”而 具有 多 种 语义 ,实际 数据 
操作 绑 定 时 需要 进行 比较 细致 的 分 析 与 处 理 。 

本 节 与 6.5 节 及 6.6 节 所 涉及 的 双 时 态 关 系 都 是 基于 BCDM 的 。 


6.4.1 双 时 态 关 系 的 分 析 与 解构 


由 于 变量 复杂 语义 涉及 多 种 因素 ,因此 有 必要 引入 相关 概念 作为 讨论 的 基础 。 

1. 时 间 无 关 与 非 时 态 属性 

如 前 所 述 , 在 一 个 时 态 关 系 TR 中 ,并 不 是 所 有 属性 都 与 时 间 ( 直 接 ) 相 关 。 

设 A 是 TR 中 一 个 属性 。A 中 所 有 属性 值 对 应 的 有 效 时 间 期 间 集 合 称 为 A 的 有 效 时 
间 集 QA。Co = (minQ4 ,max2A) ,其 中 minQ4 和 maxQ4 分 别 是 A 中 的 最 小 和 最 大 时 间 
端点 。 

f 是 A 的 属性 值 域 Vs。 到 Qs 上 的 映射 f: Va 一 Qa。 

(1) 时 间 无 关 属 性 : 车 对 于 Vrx€E Vs, 都 有 f(z) 二 Co, 则 称 A 为 时 间 无 关 属 性 ,否则 称 
为 时 间 相 关 属 性 。 

例如 ,在 时 态 关系 (Name, Id,，Title,，Dept， Salary,， VT,TT) 中 ,Name 和 id 可 以 看 作 
时 间 无 关 属 性 ,Title、Dept 和 Salary 可 以 看 作 是 时 间 相 关 属 性 。 时 态 关 系 TR 中 可 以 存在 
多 个 时 间 无 关 属 性 ,时 间 无 关 属 性 在 一 定 环 境 中 相对 稳定 ,不随 时间 消 长 而 变化 。 

(2) 时 态 与 非 时 态 属性 : 时 态 关 系 中 的 时 间 标 签 称 为 时 态 属性 , 非 时 间 标 签 的 属性 为 
非 时 态 属性 。 

时 间 无 关 属 性 是 具有 更 强 限制 的 非 时 态 属 性 。 

2. 主体 实例 与 快照 等 价 组 

双 时 态 关 系 相 比 于 常规 关系 ,其 数据 操作 的 头绪 更 为 繁多 。 为 了 分 析 叙 述 上 的 明确 和 
技术 实现 上 的 可 行 , 需 要 更 为 精细 地 对 双 时 态 进行 适当 解构 。 为 此 可 先 将 一 般 双 时 态 关 系 
分 解 为 "主体 实例 ”集合 ,再 将 主体 实例 分 解 为 “快照 等 价 组 ”的 序列 ; 同时 在 快照 等 价 组 中 
明确 “当前 版 本 ”和 “最 新 状态 ”元 组 的 概念 。 

1) 主体 实例 

在 时 态 关系 TR 选 定 一 个 时 间 无 关 属性 A, 由 A 在 TR 上 元 组 之 间 引 入 一 个 等 价 关系 

, 即 两 个 时 态 元 组 人 和 T 具有 关系 T，T,<>ITs (Ti) 二 了 A(T;), 其 中 ,A(T) 表 示 元 组 
工 在 属性 A 上 的 投影 。 由 此 得 到 TR 关于 的 等 价 类 集合 {ML ,MI ,… ,MI } 。 

上 述 的 A 称 为 TR 的 主体 属性 ; 由 划分 的 等 价 类 ME(1<j 二 有 ) 称 为 TR 关于 人 A 的 一 
个 主体 实例 。 

【 例 6-8〗 设 有 时 态 关 系 Personnel 如 表 6-28 所 示 。 
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表 6-28 Personnel 双 时 态 关系 





























Name Dept Position Salary VTs: VTe TTs: TTe 

Bob Math Vice-leader 6200 2014-01-01: Now 2014-01-10: 2015-01-09 
Bob Math Vice-leader 6300 2014-01-01: 2004-12-31 2015-01-10; uc 
White JS Leader 8500 2015-01-01: Now 2015-01-10: uc 
Raul cs Leader 8500 2013-10-01: Now 2013-01-10:， uc 


在 表 6-28 中 ,Name 是 时 间 无 关 属 性 ,前 两 个 元 组 描述 同一 “主体 ”状态 ,构成 一 个 主体 
实例 ; 而 第 3、4 两 个 元 组 分 别 是 两 个 不 同 的 主体 实例 。 

本 节 以 下 讨论 时 态 关系 都 是 指 主体 实例 。 

2) 快照 等 价 组 

给 定 一 个 主体 实例 ,可 将 其 中 各 个 元 组 按照 其 非 时 态 部 分 相同 与 否 进行 分 组 ,由 此 
得 到 的 各 个 分 组 中 的 元 组 只 有 在 时 间 标 签 上 不 同 , 这 样 的 分 组 称 为 主体 实例 的 快照 数据 
等 价 组 。 

快照 等 价 组 (Snapshot Equivalent Group,SEG) : 一 个 主体 实例 满足 如 下 条 件 元 组 子 集 
{Ti ,Te TS) , 称 为 一 个 快照 等 价 组 ,并 记 为 SEG 。 

(1) 非 时 态 相 关 属 性 值 相 同 。 

(2) 事务 时 间 满 足 后 接 关系 : TT(T,) 志 TT(T,) 声 … 寺 TT(T), 其 中 TT(T_1) 志 TT(T) 等 
价 于 TTe(T;_1)= TTs(T.)(i=2,3,"…,k)。 

(3) 至 多 有 一 个 事务 时 间 终 点 为 uc 的 元 组 ,车 有 则 为 Th 。 

主体 实例 中 每 一 个 SEG 对 应 一 条 记录 在 数据 库 中 的 演变 过 程 。 

条 件 (1) 限 定 组 内 记录 的 非 时 态 相关 属性 值 相 同 , 按 照 快 照 数据 库 考 虑 就 等 同 于 一 条 记 
录 。 条 件 (2) 限 定 组 内 记录 的 事务 时 间 满 足 后 接 关 系 , 为 组 内 记录 排序 提供 依据 ,而 Ti 可 以 
看 作 是 SEG 的 “最 大 元 组 ” 

3. 当前 版 本 与 最 新 状态 

在 双 时 态 关 系 中 ,可 以 对 任意 元 组 进行 查询 ,但 只 能 针对 特定 元 组 进行 更 新 。 为 了 描述 
这 种 情形 需要 引入 当前 版 本 元 组 和 最 新 状态 元 组 概念 。 

1) 当前 版 本 元 组 

当前 版 本 元 组 (current version tuple) : 快照 等 价 组 SEG 中 的 最 后 一 个 时 态 元 组 Ti 记 
为 Th(SEG) 二 Ti, 这 是 SEG 中 数据 记录 “最 后 ”一 次 的 演变 结果 。 

当 TTe(Thm(SEG)) 二 uc 时 ,就 称 Ti(SEG) 为 时 态 关系 当前 版 本 元 组 (简称 为 当前 版 
本 ); 否则 就 称 为 非 当 前 版 本 元 组 (简称 为 非 当 前 版 本 )。 

对 于 非 当 前 版 本 ,其 事务 时 间 终 点 是 一 个 固定 时 间 点 ,这 就 表明 该 元 组 在 数据 库 中 已 经 
被 逻辑 删除 ; 对 于 当前 版 本 ,表明 了 该 元 组 自 插入 TR 后 就 没有 进行 逻辑 上 的 数据 删除 和 
修改 操作 。 由 此 可 知 ,每 个 SEG 至 多 只 有 一 个 当前 版 本 ; 当 一 个 主体 实例 具有 多 个 SEG 
时 ,就 可 以 具有 多 个 当前 版 本 。 

2) 最 新 状态 元 组 

最 新 状态 元 组 (latest state tuple) : 若 主体 实例 中 的 当前 版 本 元 组 工 满 足 VT.(T) 一 
Now, 则 称 工 为 主体 实例 的 最 新 状态 并 记 为 Te(CTu(CSEG))。 也 就 是 说 ,主体 实例 中 满足 





VT.(T) 二 Now 人 TT.(T) 二 uc 的 元 组 就 是 其 最 新 状态 元 组 。 

按照 定义 ,最 新 状态 一 定 是 当前 版 本 ,并且 由 于 Now 语义 限定 ,一 个 主体 实例 至 多 只 能 
具有 一 个 最 新 状态 。 

【 例 6-9】 一 个 双 时 态 关 系 如 表 6-29 所 示 。 


表 6-29 双 时 态 关 系 









































Name Dept Title Salary VTs: VTe TTs: TTe 

Bob Math Vice-leader 6200 2014-01-01: Now 2014-01-10: 2015-01-10 
Bob Math Vice-leader 6200 2014-01-01: 2014-12-31 2015-01-10: uc 
Bob Math leader 8500 2015-01-01: Now 2015-01-10: uc 
White JIS Leader 8500 2013-01-01: Now 2013-01-10: 2016-01-10 
White JIS Leader 8500 2013-01-01: 2014-01-01 2016-01-10: uc 
White JIS Leader 8500 2014-02-01: 2014-10-01 2016-06-10:， uc 
White CS Leader 8900 2016-01-01: Now 2016-01-10: uc 
Raul cs Leader 8500 2013-10-01: Now 2013-10 一 10: uc 


在 表 6-29 中 ,前 3 个 元 组 构成 Bob 主体 实例 ; Bob 主体 实例 中 的 前 两 个 元 组 构成 一 个 
SEG ,第 3 个 元 组 自 成 一 个 SEG。 其 中 ,第 2 个 元 组 和 第 3 个 元 组 都 是 相应 SEG 的 当前 版 
本 ; 同时 ,第 3 个 元 组 是 Bob 主体 实例 的 最 新 状态 元 组 。 

在 表 6-29 中 ,第 4 一 7 个 元 组 构成 White 主体 实例 ,其 中 第 4 一 6 个 元 组 虽然 非 时 态 属 
性 值 相等 ,但 事务 时 间 不 满足 后 接 关 系 , 所 以 需要 分 为 由 第 4 及 第 5 元 组 组 成 和 由 第 6 元 组 
组 成 的 两 个 不 同 的 SEG。 其 中 ,第 5 个 和 第 6 个 元 组 是 相应 SEG 的 当前 版 本 元 组 ,第 7 个 
是 White 主体 实例 的 最 新 状态 元 组 。 

在 表 6-29 中 ,第 8 个 元 组 自 成 一 个 Raul 主体 实例 ,这 也 是 一 个 SEG ,该 元 组 既是 当前 
版 本 也 是 最 新 状态 。 

4. 双 时 态 关系 解构 及 相关 语义 

在 引入 上 述 概念 基础 上 可 以 将 一 般 双 时 态 关 系 进行 逻辑 上 的 解构 。 

(1) 双 时 态 关系 分 解 为 主体 实例 的 集合 ,这 相当 于 将 关系 表 中 的 元 组 进行 分 组 。 每 个 
主体 实例 就 是 具有 相同 时 间 无 关 属 性 ( 键 值 ) 时 态 元 组 集合 。 在 人 逻辑 上 , 双 时 态 关系 的 相关 
讨论 可 以 转化 为 在 其 每 个 主体 实例 上 的 讨论 。 

(2) SEG 是 对 主体 实例 的 进一步 解构 , 它 由 给 定 主体 实例 中 具有 相同 非 时 间 属 性 的 
元 组 组 成 。SEG 的 意义 在 于 在 双 时 态 关 系数 据 分 析 过 程 中 突出 对 时 间 要 素 的 处 理 。 主 
体 实例 是 其 所 有 SEG 的 序列 ,各 个 SEG 按照 其 中 “最 大 元 组 ”中 事务 时 间 始 点 TTs 大 小 
排序 。 

(3) SEG 中 的 元 组 按照 前 述 事 务 时 间 的 后 接 关 系 排序 而 形成 一 个 序列 。 其 “最 大 ”元 组 
是 该 SEG 中 数据 的 “最 后 ”演进 状态 。 

@ 如 果 * 最 大 ”元 组 是 当前 版 本 , 则 表明 是 对 相关 数据 进行 了 修改 更 新 ; 否则 就 是 进行 
“删除 ”更 新 。 

@ 如 果 “ 最 大 ”元 组 还 是 最 新 状态 , 则 表明 当前 版 本 中 的 数据 信息 的 一 直到 当前 时 刻 都 
是 有 效 的 。 

(4) 由 于 只 能 对 于 当前 版 本 进行 数据 更 新 ,因此 ,引入 当前 版 本 概念 是 在 双 时 态 关 系 中 
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明确 突显 时 态 更 新 操作 的 对 象 。 由 于 常规 关系 查询 的 内 容 体现 在 非 时 间 属性 之 中 ,因此 引 
人 关系 实例 和 SEG 实际 上 是 在 双 时 态 数据 管理 原理 分 析 上 ”屏蔽 "了 属于 常规 关系 处 理 部 
分 ,而 集中 于 相应 的 时 态 部 分 ,并 由 此 探讨 相应 的 技术 实现 路 线 。 


双 时 态 关 系 表 的 解构 如 图 6-8 所 示 。 


主体 实例 主体 实例 jl 主体 实例 | 
SGE | SGE | SGE | SGE | SGE | SGE | 


6-8 ” 双 时 态 关系 表 的 解构 












































6.4.2 最 新 状态 元 组 中 Now 语义 处 理 


引入 有 效 时 间 变 量 Now 基本 考虑 是 用 于 处 理 * 时 态 元 组 的 生命 周期 一 直 延 续 到 现在 都 
还 未 结束 ”这 一 语义 问题 。 由 于 在 实际 数据 处 理 过 程 中 会 出 现 “ 实 际 发 生 时 间 ( 有 效 时 间 )” 
与 “数据 入 库 时 间 ( 事 务 时 间 )” 难 以 同步 , 即 通常 是 后 者 “滞后 "于 前 者 的 技术 处 理 问 题 ,因此 
会 引发 Now 产生 新 的 语义 ,使 得 在 数据 操作 绑 定 Now 时 需要 进行 比较 细致 的 分 析 与 处 理 。 

Now 只 能 出 现在 SEG 的 最 新 元 组 和 非 当 前 版 本 元 组 当中 ,需要 分 别 讨论 。 先 分 析 最 
新 状态 元 组 中 的 情形 。 

1. Now 语义 分 析 

时 态 数据 库 中 有 效 时 间 期 间 [VTs,VTe) 可 根据 时 间 终 点 VTe 分 为 两 类 。 

(1) VTe 二 确定 时 刻 。 此 时 表示 相应 数据 的 生命 周期 或 者 在 “过 去 "已 经 结束 (VTe 二 CT)， 
或 者 表示 将 在 “未 来 " 某 个 时 刻 结束 (VTe 二 CT)。 

(2) VTe= 不 确定 时 刻 。 此 时 表示 数据 有 效 时 间 随 时 间 流 逝 而 单调 增加 ,其 不 确定 性 
含义 为 :“ 数 据 的 有 效 时 间 截 止 当前 时 间 还 未 结束 ,但 不 能 确定 在 将 来 何 时 结束 。” 

研究 不 确定 性 端点 时 刻 的 有 效 时 间 处 理 机 制 是 整合 TDB 中 时 间 标 签 处 理 的 一 个 基础 
课题 ,解决 此 类 随时 间 变 化 有 效 时 间 端 点 时 刻 通常 有 两 种 处 理 方式 。 

(1) 常量 方式 。 将 不 确定 端点 作为 常量 进行 处 理 。 此 时 有 两 种 实现 路 线 。 

Q@ 最 大 值 方法 : 将 VTe 看 作 系统 允许 最 大 时 间 , 如 IBM 的 DB2 中 最 大 时 间 为 8000 年 。 

@ 变动 常量 方法 : 将 VTe 看 作 变 量 ,每 天 (假设 时 间 粒 度 是 “天 ”) 将 VT. 取 作 当 天 时 
间 CT。 

最 大 值 方 法 使 用 简单 ,但 不 能 体现 “不 确定 ”含义 ,与 人 们 日 常 直观 相悖 ,因为 系统 最 大 
时 间 很 大 ,数据 实际 有 效 期 不 可 能 具有 如 此 长 的 时 间 。 此 外 ,如 果 以 系统 最 大 时 间 为 VTe 
变动 , 则 相应 数据 需 更 新 时 ,数据 库 会 就 有 可 能 出 现 两 个 相互 矛盾 的 数据 文件 ,破坏 数据 库 
一 致 性 。 

变动 常量 方法 能 够 体现 “不 确定 ”概念 ,但 不 符合 常规 技术 处 理 要 求 , 因 为 在 实际 情形 中 
不 需要 也 不 可 能 每 天 更 新 。 此 外 ,在 应 用 中 由 于 确定 和 不 确定 的 VTe 都 是 “ 常 定 ” 形 态 的 时 


刻 , 系 统 运 行 中 需要 分 清 哪 些 是 随 着 时 间 需 要 逐日 更 新 ,哪些 不 需要 逐日 更 新 ,增加 了 技术 
实现 上 复杂 性 。 

(2) 变量 方式 。 将 不 确定 端点 记 为 某 个 变量 符号 如 Now ,对 数据 进行 操作 时 再 对 变量 
具体 取 值 。 此 时 也 有 两 种 实现 路 线 。 

Q@ 当前 时 间 语 义 变量 方法 : 选用 Now 作为 有 效 时 间 变 量 主要 是 考虑 到 Now 具有 at 
the present time 的 自然 语义 。 在 数据 操作 过 程 中 ,设计 一 种 机 制 将 Now 与 操作 当前 时 间 CT 
绑 定 以 实现 变量 Now 取 值 。 这 种 变量 时 间 设 计 称 为 Now 相关 时 间 , 它 既 能 够 体现 “不 确定 ” 
含义 ,因为 “变动 ”的 端点 使 用 变量 更 为 自然 直观 ,还 可 以 避免 常量 方法 带 来 的 缺陷 和 不 足 。 

@ 一 般 时 间 语 义 变量 方法 : 即 结合 时 态 数据 库 实际 运行 情况 ,赋予 变量 较为 广泛 的 

2. TDB 框架 中 Now 语义 

在 变量 Now 的 时 态 数 据 库 运 行当 中 ,实际 问题 并 不 是 像 原 先 引入 Now 时 那样 简单 。 

(1) 有 效 时 间 概 念 语义 问题 。 当 VTe== Now 时 ,如 果 采 用 当前 时 间 语 义 将 Now 和 CT 
绑 定 ,按照 有 效 时 间 概 念 ,严格 来 说 ,其 表示 相应 数据 只 在 从 过 去 某 个 时 刻 到 “今天 ”有 效 , 明 
天 就 不 会 有 效 , 这 有 人 悖 于 常识 ,在 实际 语义 操作 处 理 中 带 来 不 便 ,这 可 以 看 作 是 一 种 悲观 主 

(2) 事务 时 间 关 联 语 义 问题 。 在 使 用 Now“ 当 前 ”语义 过 程 中 ,实际 上 隐 含 一 个 相当 强 
的 假设 , 即 数 据 在 现实 世界 中 开始 有 效 或 改变 的 时 刻 和 该 数据 创建 或 更 新 的 事务 时 刻 “ 同 
步 ”, 这 与 有 效 时 间 和 事务 时 间 的 “ 正 交 性 ”矛盾 ,在 数据 库 实际 运行 中 难以 做 到 。 对 于 数据 
创建 和 更 新 来 说 ,数据 入 库 时 刻 相对 数据 实际 生效 或 改变 时 刻 通常 都 有 一 个 “错位 ”情形 : 
VTs 关 TTs, 即 错位 量 A 二 TTs 一 VTs 关 0。 

实际 上 ,按照 事务 时 间 和 有 效 时 间 的 概念 内 涵 不 难 推 知 。 

@ 当 VTs<TTs 即 A 之 0,Now 实际 上 可 能 表示 过 去 时 间 。 

Q@ 当 TTs<VTs 即 A<0.,Now 实际 上 可 以 表示 将 来 时 间 。 

变量 Now 引进 ,不 仅 可 以 解决 VTe 为 不 确定 时 间 问 题 ,而 且 还 揭示 出 双 时 态 数 据 库 运 
行 过 程 中 的 某 些 具有 研究 意义 和 技术 价值 的 课题 。 

【 例 6-10】 设 有 表 6-30 一 表 6-32 表示 的 3 个 时 态 关 系 ,QT 表示 所 需要 查询 数据 的 时 
间 约 束 ,通常 假设 为 时 间 期 间或 时 间 点 。 

在 表 6-30 中 ,假设 系统 中 数据 更 新 在 “事实 "生效 后 第 三 日 执行 , 即 A 二 3。 如 果 John 在 
2016-08-31 离职 ,数据 库 中 相应 数据 的 有 效 时 间 终 点 VTe 在 事务 时 间 2016-09-03 时 才能 “ 物 
理 ” 地 改变 为 2016-08-31。 若 有 关 部 门 在 CT 二 2016-09-02 需要 查询 统计 截至 QT 二 2016-09-01 
全 体 在 职员 工 的 情况 ,这 里 ,QT= 2016-09-01 € [2016-08-29: 2016-09-02) 二 [CT 一 A: CT)。 
此 时 ,如 果 将 Now 简单 绑 定 于 CT== 2016-09-02, 则 对 于 White 就 会 得 到 与 事实 不 符 的 结 
果 。 如 果 将 Now 绑 定 于 某 个 过 去 时 间 如 CT 一 A 二 2016-08-29 就 会 得 到 合适 结果 。 可 见 ， 
此 时 Now 不 表示 current time 而 具有 过 去 时 间 CT 一 A 语义。 


表 6-30 ”John 时 态 关系 


Name Title VTs: VTe 





John Peofessor 2016-03-01, Now 
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在 表 6-31 中 ,假设 有 关 部 门 做 当年 (2016) 单 位 职工 奖励 工资 预算 ,需要 在 当前 时 间 
CT 二 2016-10-01 查询 Black 本 年 度 (QT 二 2016-12-31) 是 否 在 职 。 假 设 Black 的 有 效 预测 
期 (合同 期 ) 为 3 年 。 这 里 ,QT==2016-12-31E€[2016-10-01: 2018-07-31) 王 [CT: 2018-07-31)。 
此 时 ,将 Now 绑 定 于 CT 也 是 不 合适 的 ,可 以 考虑 将 Now 绑 定 于 “未 来 ” 某 个 时 间 , 如 将 
Now 绑 定 于 2018-07-31 也 许 比较 合适 。 
表 6-31 Black 时 态 关 系 
Name Title VTs: VTe 





Black Manager 2015-08-01, Now 


设 CT=2016-06-01, 表 6-32 表示 毕业 生 White 已 经 和 单位 签订 了 合同 (合同 期 三 年 ) 
并 且 相 应 记录 也 进入 了 数据 库 , 其 中 VTs(L) 和 VTe(L) 分 别 表示 合同 世 的 逻辑 有 效 时 间 
始点 和 终点 。 但 相关 部 门 可 能 在 CT 查询 截止 2016 年 年 底 在 职员 工 情 形 时 。 此 时 ,从 直观 
上 考虑 ,Now 可 以 考虑 绑 定 于 “未 来 ”时间 : VTe(L) 一 2019-06-30。 
表 6-32 White 时 态 关系 
Name Title VTs(L): VTe(L) 





White Lecture 2016-07-01, Now 


3. 确定 和 不 确定 查询 

上 述 Now 语义 实际 上 包含 了 数据 查询 过 程 中 可 能 具有 的 不 确定 性 。 实 际 上 ,前 述 
VTe 二 Now 时 间 语 义 实际 上 可 在 两 个 层面 进行 分 析 。 

(1) 确定 性 层面 : 即 * 从 过 去 某 个 时 刻 到 当前 时 刻 是 有 效 的 ”。 

(2) 非 确定 性 层面 : 即 “ 有 效 期 何 时 终结 难以 确定 ”。 

在 数据 操作 过 程 中 Now 需要 和 具体 时 间 值 绑 定 , 而 不 同 层面 含义 导致 引起 变量 Now 
值 的 不 同 绑 定 , 从 而 导致 查询 结果 的 事实 确定 性 和 事实 不 确定 性 。 

1) VTs<TTs 

此 时 ,表明 错位 量 A=TTs 一 VTs 二 0, 表 现 事 务 时 间 相 对 于 有 效 时 间 的 滞后 期 。 按 照 
前 述 语义 分 析 , 相 对 于 当前 时 刻 CT,Now 可 能 需要 绑 定 于 某 个 “过 去 ”时 刻 。 例 如 ,可 考虑 
将 Now 绑 定 于 “CT 一 A”。 此 时 ,根据 查询 时 刻 QT 分 为 下 述 情形 如 图 6-9 所 示 。 


Now=CT-4 Now=CT Now= 逻 辑 终点 
T 
ar | | QT 1 1 Q 








图 6-9 ”Now 绑 定 和 查询 结果 输出 


(1) 确定 性 结果 。 当 QT 二 CT 一 A 时 ,而 Now 绑 定 于 CT-A, 其 中 ， 

QT<VTs: 输出 确定 查询 结果 (no, 无 数据 输出 ); 

VTs 和 QT<CT 一 A 人 : 输出 确定 查询 结果 (yes, 有 数据 输出 )。 

(2) 非 确 定性 结果 。 

Q@ CT 一 A<QT<CT: Now 绑 定 于 CT, 输 出 不 确定 查询 结果 (yes, 有 具 较 低 不 确定 性 


的 数据 输出 ) 。 

@ CT<QT: Now 绑 定 于 数据 的 逻辑 有 效 预 测 期 终点 ,输出 不 确定 查询 结果 (yes, 有 
具 渐 高 不 确定 性 的 数据 输出 ) 。 

上 述 4 种 情况 如 图 6-9 所 示 。 

DTTe<VTe 

此 时 ,表明 了 相关 数据 有 效 期 还 未 实际 开始 但 已 经 进入 了 数据 库 ,对 于 这 类 只 是 逻辑 上 
有 效 的 数据 ,其 查询 结果 不 可 避免 带 有 不 同 程度 上 的 非 确定 性 ,主要 用 于 对 状态 或 情形 的 预 
测 。 对 于 数据 d 来 说 ,此 时 可 以 设 Q= 二 VTe(d) 一 VTs (d) 为 数据 的 逻辑 有 效 期 ,而 [VTs (d)， 
VTe(d)) = [LVTs(d),VTs(d) 十 Q) 表 示 数 据 逻 辑 上 的 预测 有 效 时 间 期 间 , 例 如 一 个 即将 生 
效 的 员工 有 效 合同 期 。 对 于 当前 时 间 CT 二 VTs(d) 而 言 ,此 时 Now 具有 “将 来 ”时间 语义 ， 
此 时 ,可 以 考虑 将 Now 与 VTe(d)= VTs(d) 十 Q 绑 定 。 根 据 查询 时 间 QT 不 同情 形 ,可 以 
有 具有 确定 性 或 非 确定 性 的 输出 结果 如 图 6-10 所 示 。 

() QT<VTs(d) : 输出 确定 查询 结果 (no ,无 数据 输出 ) 。 

(2) VTs(d) 三 QT<VTs(d) 十 Q: 输出 非 确 定性 预测 查询 结果 (yes, 有 数据 输出 , 非 确 
定性 渐 高 ) 。 

(3) VTs 十 QO 二 QT(d) : 输出 确定 查询 结果 查询 (no ,无 数据 输出 ) 。 


Now=VTe(d)=VTs(d)+Q 








QT QT QT 


CT 确定 (no) VTs(d) 不 确定 (yes， 渐 高 ) VTe(d) 确定 (no) / 
图 6-10 ”Now 将 来 语义 绑 定 和 结果 输出 


6.4.3 非 当 前 版 本 Now 语义 处 理 


对 于 给 定 SEG 中 , 非 当 前 版 本 中 Now 表示 非 当 前 时 刻 语义 现象 更 为 常见 。 设 元 组 TT; 
的 时 态 标签 中 出 现时 态 变量 Now,Ti 所 在 的 SEG 为 S, 同 一 SEG 的 其 他 元 组 为 Ti ,…， 
人 Ti,Ti,…… ,Ti ,满足 TTOT1) 过 … 志 TTOT;) 达 … 志 TT(T)。 对 于 任意 i 满足 1<i<k, 此 
时 Ti 存在 如 下 两 种 情形 。 

(1) 当 i<k 时 ,TT 在 SEG 中 其 后 有 “后 继 ” 记 录 。 这 主要 发 生 在 插入 相应 新 记录 后 的 情形 。 

(2) 当 ;i 一 & 时 ,Ti 是 所 在 SEG 的 最 大 元 组 。 这 主要 发 生 在 记录 的 “逻辑 ?删除 情形 。 

1. 非 最 大 元 组 中 Now 绑 定 

在 给 定 SEG 中 非 当 前 版 本 T; 之 后 有 “后 继 ” 记 录 即 “最 大 者 ”T, ,这 表明 对 原先 的 当前 
元 组 进行 了 更 新 ,插入 了 新 的 元 组 。 此 时 ,Now 需 和 相应 SEG 中 的 “最 大 后 继 ” 元 组 Ts 中 有 
效 时 间 终 点 VTe 绑 定 , 即 Now 二 VTe(T)。 

【 例 6-11】 设 有 单个 元 组 构成 的 "Raul”SEG 如 下 : 

“Raul,CS, Assistant. prof,7500,[2015-01-01: Now; 2015-01-10: uc)” 

现在 需要 在 CT 二 2016-01-01 时 向 其 中 插入 新 的 元 组 : 

“Raul,CS, Assistant. prof,8900,[2016-01-01: Now; 2016-01-10: uc)” 

更 新 后 的 主体 实例 具有 如 表 6-33 所 示 的 分 别 由 第 1 和 第 2 元 组 构 的 及 由 第 3 元 组 构 


肝 态 烧 据 库 


击溃 


高 级 数据 亩 基础 乾 程 





成 的 SEG1 和 SEG2。 
表 6-33 关于 Raul 的 主体 实例 (一 ) 











Name Dept Title Salary VTs: VTe TTs;: TTe 

Raul CS Assistant. Prof. 7500 2015-01-01: Now 2015-01-10: 2016-01-09 
Raul CS Assistant. Prof. 7500 2015-01-01: 2015-12-31 2016-01-10: uc 
Raul CS Prof. 8900 2016-01-01: Now 2016-01-10: uc 

















设 CT==2016-02-28, 在 SEG1 中 进行 如 下 双 时 态 查 询 以 检索 Raul 的 基本 情况 : 

TT(Q)= (2015-09-01: 2015-11-01), VT(Q)= (2016-02-20: 2016-02-20) 

此 时 , 表 6-33 中 的 第 一 个 元 组 不 是 最 新 状态 ,Now 也 不 能 绑 定 于 当前 时 间 “CT 王 2006- 
02-28”, 否 则 输出 如 下 结果 : 

“Raul,CS, Assistant. prof ,7500, (2016-02-20: 2016-02-20; 2015-09-01: 2015-11-01)” 

而 这 与 如 下 的 实际 结果 矛盾 : 

“Raul,CS,prof,8900,(2016-02-20: 2016-02-20; 2016-01-10: 2006-02-28)”。 

事实 上 , Now 应 与 SEG1 中 的 “最 大 ”元 组 , 即 表 6-33 中 第 2 个 元 组 (也 是 当前 版 本 元 
组 ) 的 有 效 时 间 终 点 VTe= 二 2015-12-31 绑 定 , 即 Now VTe 王 2015-12-31 , 绑 定 后 SEGI 不 是 
查询 结果 ,与 实际 情况 相符 。 

2. 最 大 元 组 中 Now 绑 定 

SEG 中 元 组 Ti 没有 “后 继 ” 记 录 , 这 主要 发 生 在 记录 被 “逻辑 ”删除 的 情形 。 此 时 ,存在 
着 两 种 “语义 ”情形 。 

1) Tk 所 在 SEG 存在 着 “后 继 ”SEG1 

此 时 表达 的 语义 是 对 T 进行 了 修改 ,SEG' 是 修 该 后 数据 组 成 的 新 的 SEG。 

设 后 继 SEG1 中 最 大 后 继 元 组 为 T ,此 时 Now 绑 定 于 VCT') 一 1 即 Now=VTCT) 一 1。 

【 例 6-12】 如 表 6-34 所 示 ,Raul 主体 实例 中 第 1 个 元 组 组 成 一 个 SEG ,表示 一 个 已 经 被 
“逻辑 ?删除 的 记录 。 其 后 继 SEG1 由 第 2 个 元 组 组 成 ,是 对 第 1 个 元 组 进行 修改 后 的 元 组 。 
SEG1 的 “最 大 ”元 组 T' 就 是 图 6-40 中 第 2 个 元 组 。 如 果 需 要 查询 满足 TT(Q) 二 (2015-02-01: 
2015-07-31) ,VT(Q) 二 [2015-03-01: 2015-09-30) 的 数据 ,此 时 Now 就 与 VR (CT') 一 1 一 2014-12-31 
绑 定 。 输 出 结果 将 为 空 ,符合 实际 情况 。 


表 6-34 关于 Raul 的 主体 实例 (二 ) 























Name Dept Title Salary VTs: VTe TTs: TTe 
Raul CS Assistant. Prof. 7500 2015-01-01: Now 2015-01-10: 2016-01-09 
Raul CS Assistant. Prof. 7800 2015-01-01: Now 2016-01-10: uc 


2) Ti 所 在 SEG 没有 “后 继 ”SEG' 

此 时 ,Ti 为 相应 主体 实例 中 最 后 一 个 元 组 ,表达 的 语义 是 该 元 组 已 经 被 逻辑 删除 。 直 
接 将 Now 绑 定 于 CT 即 Now 王 CT。 

【 例 6-13〗 如 表 6-35 所 示 的 元 组 已 经 被 逻辑 删除 ,其 后 没有 后 继 SEG1,Now 与 当前 
时 间 CT 绑 定 。 


表 6-35 关于 Raul 的 主体 实例 (三 ) 
Name Dept Title Salary VTs: VTe TTs; TTe 





Raul CS Assistant. Prof. 7500 2016-09-01: Now 2016-05-10: 2016-06-10 





6.5 双 时 态 数 据 操 作 


双 时 态 关 系数 据 操 作 可 以 分 为 数据 查询 和 数据 更 新 两 个 部 分 进行 讨论 。 
6.5.1 双 时 态 数 据 查 询 


具有 变量 的 数据 库 中 数据 查询 前 提 是 确定 或 绑 定 有 效 时 间 变 量 Now 值 。 如 前 所 述 , 这 
种 绑 定 与 Now 语义 相关 ,需要 对 Now 的 实际 应 用 情况 进行 分 析 。 

1. 时 态 连 接 运 算 

时 态 关 系 连接 除了 满足 常规 连接 条 件 之 外 ,还 需要 满足 时 态 连 接 条 件 。 

可 时 态 连 接 元 组 : 时 态 关 系 表 TR, 中 的 元 组 Te 和 时 态 关 系 TR* 中 的 元 组 Ts 称 为 是 
可 进行 时 态 连 接 的 (简称 可 时 态 连接 的 ) ,如 果 满 足以 下 条 件 。 

(1) To 和 Tw 处 于 同一 版 本 当中 。 

(2) Te 和 Ts 除去 时 间 标 签 之 后 ,作为 常规 关系 元 组 是 可 以 连接 的 。 

(3) Te 和 Ts 相应 的 有 效 时 间 期 间 交 码 (overlap) 。 

由 于 连接 过 程 并 不 显 式 表示 关于 时 间 的 选择 ,此 时 ,Now 绑 定 可 以 不 考虑 查询 时 间 QT 
的 因素 。 在 验证 (3) 时 有 下 述 两 种 情形 。 

Q@ 当 两 个 需要 连接 元 组 Tio 和 Tso 中 都 出 现 Now 时 ,将 Now 绑 定 于 CT, 连接 后 有 效 时 
间 终 点 恢复 为 Now。 

@) 当 需 要 连接 元 组 中 只 有 一 个 出 现 Now 时 , 即 VTe(Tio) 王 NowAVTe(CTs ) 天 Now。 
若 VTe(Ta ) 秋 CT, 则 VTe(Tw)== Now 绑 定 于 CT; 车 CT<VTe(Tzw), 则 VTeCTio ) 一 
Now 绑 定 于 VTe(Ts。)。 连 接 后 时 态 元 组 有 效 时 间 终 点 VTeCVTCTo)mVTCTs)) 恢 复 
为 Now。 

时 态 关系 连接 过 程 可 以 分 析 如 下 。 其 中 ,v(T) 表 示 时 态 元 组 的 非 时 态 部 分 即 常 规 元 组 。 

设 主体 实例 ML 和 MI 中 两 个 时 态 元 组 分 别 为 Tio=Cv(CTo),VT(CTo),TTCTio)) 和 
Tw 二 (v(Too),VT(To),TT(Tzo))，MIs 为 连接 后 的 新 的 主体 实例 。 当 Tj。 和 Ts。 满足 以 下 
条 件 。 

(I TTSETTIO YTTN ETTTo: 

(2) VT(TI) MN VT(T ) A 

(3) 非 时 态 部 分 作为 常规 关系 元 组 是 可 联接 的 。 

定义 时 态 连接 算 子 [x 定义 为 : [xl (To ,Ta) 王 {(CvCTa),VTCTao),TTCTa))) ,其 中 
下 ET TT Co = mTT( Ty; 
TIED 

【 例 6-14】〗 设 有 如 表 6-36 和 表 6-37 所 示 的 两 个 时 态 关 系 TR 和 TR, ,当前 时 间 CT= 
2016-05-01, 讨 论 其 时 态 连 接 。 
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表 6-36 时 态 关 系 TR 

















Name Title VTs:VTe TTs:TTe 
Green Manager 2013-01-01:2013-12-31 2015-01-10: uc 
Green Sr. Manager 2014-01-01: Now 2015-01-10: uc 


表 6-37 时 态 关 系 TR， 








Name Salary Dept VVTs: VTe TTs: TTe 
Green 6800 CS 2014-01-01: 2014-12-31 2015-01-10:， uc 
Green 8000 CS 2015-01-01: Now 2015-01-10; uc 














这 里 ,TR 一 {Tu ,Tis} 和 TR, 二 {Ta ,Tz,}) 中 元 组 都 是 同一 版 本 ; 非 时 态 部 分 是 可 连接 
元 组 ; 但 只 有 Ts 中 的 第 二 个 元 组 有 效 时 间 与 Ta 和 Ts。 有 效 时 间 期 间 有 交 鼻 。 

由 于 VTe(Tw) 三 CT, 因此 VTe(Tis)== Now 绑 定 于 CT, 此 时 VT(Ts)==[2014-01- 
01,2016-05-01) .VT(Ta) = [2014-01-01,2014-12-31) .VT(T1) NN VT(Ta) = [2014-01- 
01: 2014-12-31) 。 

由 于 VTe(Tis) 二 VTe(Tss)= 二 Now, 两 者 都 绑 定 于 CT, 此 时 VT(T1s) 几 VT(T,,)= 
[2005-01-01: CT) ,最 终 输 出 结果 中 再 恢复 为 VT(Tis) 由 VT(T2) 二 [2005-01-01: Now) 作 
为 连接 后 元 组 有 效 时 间 期 间 。 连 接 运 算 结果 如 表 6-38 所 示 。 


表 6-38 连接 运算 结果 
































Name Salary Dept Title VTs: VTe TTs: TTe 
Green 6800 CS Sr Manager | 2014-01-01:2014-12-31 2015-01-10:uc 
Green 8000 CS Sr. Manager 2015-01-01: Now 2015-01-10:uc 


2. 时 态 投影 运算 

在 投影 运算 中 ,可 能 会 出 现 非 时 态 部 分 相同 而 时 态 标签 不 同 的 时 态 元 组 ,此 时 需要 根据 
情况 对 元 组 进行 时 态 归并 处 理 , 即 对 相应 的 时 态 标签 进行 “归并 ”。 归 并 基本 思想 是 先 对 投 
影 结果 快照 组 中 的 元 组 进行 事务 时 间 归 并 ,再 对 同一 版 本 中 的 元 组 进行 有 效 时 间 归 并 。 

(1) 事务 时 间 归 并 。 同 一 SEG 中 两 个 元 组 TI 和 全; 成 立 TTCTi) 站 TTCT;) 关 多 时 , 则 称 
TT 和 Ts 是 关于 事务 时 间 可 归并 的 ,此 时 将 T 和 全 的 事务 时 间 调 整 为 TT 王 [max{TTCT )， 
TTs(Te)}: min{ TTe(T), TTe(T,)})。 

(2) 有 效 时 间 归 并 。 对 于 SEG 中 调整 事务 时 间 后 的 同一 版 本 中 元 组 再 考虑 进行 有 效 
时 间 归 并 。 设 Ti 和 T* 是 如 此 的 元 组 , 则 实行 下 述 步 骤 。 

步骤 1: Now 绑 定 

Q@ Ti 和 T 是 当前 版 本 ,如 果 存 在 Now, 则 Now 绑 定 于 CT。 

@ T, 和 了 T 是 非 当 前 版 本 ,如 果 Ti (Ts:) 存 在 Now, 而 TT 是 相应 事务 时 间 , 则 VTeCT,) 
(VTe(T:)) 王 Now 绑 定 于 TTs 一 1。 

步骤 2: 时 间 归 并 

当 VTCTDmVTCT:) 天 好 VTe(CT )= VTs(T:) 或 VTe(T:)= VTs(Ti) 时 ,归并 后 
有 效 时 间 期 间 为 [min{VTs(T1),VTs(T,)}: max{VTe(Ti),VTe(T,)}))。, 

















【 例 6-15〗 设 有 如 表 6-39 所 示 双 时 态 关 系 。 

表 6-39 双 时 态 关系 TR 
Name Dept Title Salary VTs: VTe TTs: TTe 
Black EN Engineer 7500 2013-01-01: Now 2013-01-10: 2014-01-10 
Black EN Engineer 7500 2013-01-01: 2013-12-31 2014-01-10:， uc 
Black EN Sr. Engineer 8500 2014-01-01: Now 2014-01-10: 2015-01-10 
Black EN Sr. Engineer 8500 2014-01-01: 2014-12-31 2015-01-10; uc 
Black EN Sr. Engineer 9000 2015-01-01: Now 2015-01-10: uc 














如 果 对 Name 和 Dept 进行 投影 的 时 态 关 系 如 表 6-40 所 示 。 
表 6-40 在 Name 和 Dept 上 的 投影 





























Name Dept VTs: VTe TTo Te 

Black EN 2013-01-01: Now 2013-01-10: 2014-01-10 
Black EN 2013-01-01: 2013-12-31 2014-01-10: uc 
Black EN 2014-01-01: Now 2014-01-10: 2015-01-10 
Black EN 2014-01-01: 2014-12-31 2015-01-10: uc 
Black EN 2015-01-01: Now 2015-01-10: uc 


第 1 个 和 第 3 个 元 组 事务 时 间 不 能 进行 调整 ,属于 不 同 版 本 ; 其 余 元 组 属于 当前 版 本 ， 
事务 时 间 TT 二 [2015-01-10: uc) ,归并 后 有 效 时 间 VT 二 [2013-01-01: Now)。 归 并 后 时 态 





关系 如 表 6-41 所 示 。 



































表 6-41 事务 时 间 和 有 效 时 间 归 并 

Name Dept VTs: VTe TTs: TTe 

Black EN 2013-01-01: Now 2013-01-10: 2014-01-10 

Black EN 2014-01-01: Now 2014-01-10: 2015-01-10 

Black EN 2013-01-01: Now 2015-01-10: uc 

3. 时 态 选择 运算 

当 查 询 是 关于 时 间 元 素 的 选择 时 ,需要 将 Now 值 “ 绑 定 ”。 

【 例 6-16】 设 有 如 表 6-42 所 示 的 时 态 关 系 Employee, 其 中 错位 量 A 一 10。 

表 6-42 双 时 态 关 系 TR 

Name Dept Position Salary VTs: VTe TTs: TTe 
Bob Math Vice-leader 6200 2014-01-01: Now 2014-01-10: 2015-01-09 
Bob Math Vice-leader 6300 2014-01-01: 2004-12-31 2015-01-10: uc 
White IS Leader 8500 2015-01-01: Now 2015-01-10: uc 
Raul CS Leader 8500 2013-10-01: Now 2013-01-10: uc 

















(1) 查询 QT: TTCQT)=2014-06-30AVT(CQT) 二 2014-05-25 的 事件 (Event) 信息 ,由 于 
非 当前 版 本 中 只 有 表 6-42 中 所 示 的 第 一 个 元 组 T1, 因 此 VTe(T1)Now 绑 定 于 TS(T2) 一 1 一 
2014-01-09, 其 中 T2 为 Tl 的 后 继 元 组 。 此 时 VTCQT) 王 2014-05-25E VT(CT1) 王 [2014-01-01 
2015-01-09) ,由 此 得 到 相应 查询 结果 为 Tl] 。 
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(2) 假设 CT 王 2015-04-20 ,查询 QT: TT(QT) 二 uc 人 VT(QT) 二 [2015-02-15; 2015- 
03-15) 的 信息 ,由 于 VTe(QT)) 二 2015-03-15 小 于 CT 一 A 二 2015-04-10, 表 6-42 中 的 第 3 个 
元 组 T3 中 Now 与 当前 时 间 CT 绑 定 , 即 VTe(T3) 二 Now 二 CT 二 2015-04-20, 由 此 得 到 所 
需要 信息 。 

(3) 如 果 需 查询 有 效 时 间 期 间 VT(QT) 二 [2015-02-15:; 2015-04-15) 情 形 。 由 于 CT 一 A 
VTe(QT)<CT, 即 VTe(QT)=2015-04-15E [CT—A: CT)=[2015-04-10:; 2015-04-20)， 
VTe(T3) 二 Now 绑 定 于 CT 一 A 二 2015-04-10, 此 时 查询 输出 不 确定 信息 。 


6.5.2 双 时 态 数 据 更 新 


双 时 态 关 系数 据 更 新 只 能 针对 当前 版 本 ,相应 的 插入 、 删 除 和 修改 操作 只 能 在 当前 版 本 
集合 上 进行 。 

1. 插入 更 新 

插入 更 新 分 为 下 面 两 种 情形 。 

(1) 插入 后 构成 一 个 新 主体 实例 。 此 时 插入 的 元 组 就 是 一 个 最 新 状态 元 组 。 

(2) 插入 到 已 有 主体 实例 当中 。 此 时 插入 过 程 与 主体 实例 当前 版 本 元 组 相关 。 

车 当前 版 本 不 是 最 新 状态 元 组 ,直接 插入 新 的 元 组 作为 最 新 状态 元 组 。 

@ 若 当前 版 本 是 最 新 状态 元 组 ,需要 将 该 最 新 状态 元 组 进行 两 次 处 理 : 首先 ,将 最 新 
状态 元 组 中 uc 修改 为 CT 后 作为 历史 记录 予以 保留 ; 然后 ,再 将 最 新 状态 元 组 中 Now 修改 
为 插入 元 组 中 VTs 一 1 后 作为 “新 生 ” 当 前 版 本 元 组 插入 存储 ; 最 后 , 青 将 需要 新 插入 的 元 
组 作为 新 的 最 新 状态 元 组 插入 存储 。 

【 例 6-17】 设 有 Personel 工资 关系 TR(Name,Dept, Title,Salary; VTs :VTe ,TTs :TTe)，, 
时 间 错 位 量 A=9( 天 )。 设 有 表 6-43 所 示 Jake 主体 实例 ,其 中 当前 版 本 元 组 非 最 新 状态 。 

表 6-43 Jake 主体 实例 中 无 最 新 状态 元 组 
Name Dept Title Salary VTs: VTe Tor TTe 
Jake CS Lecture 7500 2013-01-01: 2015-12-31 2016-01-10; uc 





插入 新 元 组 后 如 表 6-44 所 示 。 
表 6-44 Jake 主体 实例 中 插入 新 元 组 








Name Dept Title Salary VTs: VTe TTs: TTe 
Jake CS Lecture 7500 2013-01-01: 2015-12-31 2016-01-10: uc 
Jake CS Associate-Prof. 8500 2016-09-01: Now 2016-09-10: uc 














【 例 6-18〗 Black 在 VTs 一 2017-01-01 进入 EN 部 门 工作 ,担任 Engineer, 工 资 为 
7500, 那 么 他 的 记录 在 TTs 一 2017-01-10 被 录 ( 插 ) 和 到 相应 双 时 态 关 系 表 中 ,由 此 建立 起 
Black 主体 实例 如 表 6-45 所 示 。 

表 6-45 插入 新 元 组 建立 Black 主体 实例 
Name Dept Title Salary VTs: VTe TTs: TTe 
Black EN Engineer 7500 2017-01-01: Now 2017-01-10: uc 








当 Black 在 2017-08-01 升 职 并 加 工资 ,数据 库 记 录 在 2017-08-10 进行 更 新 。 

首先 ,将 原来 记录 作为 历史 记录 保留 ,此 时 系统 自动 绑 定 原 记 录 中 事务 时 间 的 终止 时 刻 
uc 为 CT( 系 统 时 间 ) , 即 是 2017-08-10 ,表示 该 记录 这 一 状态 的 事务 在 该 时 刻 终止 。 

其 次 ,将 原 记 录 中 Now 绑 定 为 VTs 一 1 二 “2017-07-31”,TTs 修改 为 CT 王 2017-08-10， 
并 将 元 组 (Black, EN, Engineer,7500,2017-01-01,2017-07-31,2017-08-10, uc) 作为 一 个 当 
前 版 本 记录 保存 ,此 时 和 历史 记录 一 起 构成 Black 实例 的 一 个 SEG ,如 表 6-46 所 示 。 


表 6-46 保存 历史 记录 后 得 到 的 SEG 























Name Dept Title Salary VTs: VTe TTs: TTe 
Black EN Engineer 7500 2017-01-01: Now 2017-01-10: 2017-08-10 
Black EN Engineer 7500 2017-01-01: 2017-07-31 2017-08-10: uc 


最 后 ,插入 新 记录 : (Black,En,Sr Engineer,8500,2017-08-01, Now,2017-08-10, uc)， 
该 记录 作为 当前 元 组 存储 同时 构成 一 个 由 最 新 状态 组 成 的 SEG ,如 表 6-47 所 示 。 
表 6-47 插入 新 元 组 后 得 到 的 主体 实例 


























Name Dept Title Salary VTs: VTe TT 下 Te 

Black EN Engineer 7500 2017-01-01: Now 2017-01-10: 2017-08-10 
Black EN Engineer 7500 2017-01-01: 2017-07-31 2017-08-10: uc 
Black EN Sr. Engineer 8500 2017-08-01: Now 2017-08-10: uc 


在 表 6-47 中 ,第 1.2 两 条 记录 描述 了 Black 同一 状态 的 两 个 不 同 版 本 ,第 1 条 记录 事务 
时 间 的 终止 时 刻 表 明 是 该 记录 是 历史 版 本 ,第 2 条 记录 是 相应 SEG 的 当前 版 本 。 第 3 个 元 
组 是 新 插入 的 记录 ,Now 和 uc 的 同时 存在 说 明 该 元 组 是 “最 新 状态 ”。 
再 假设 Black 在 2018-01-01 晋升 工资 为 9000, 数 据 库 在 2018-01-10 进行 更 新 。 按 照 上 
述 同样 的 步骤 得 到 结果 如 表 6-48 所 示 。 其 中 ,第 1 个 和 第 2 个 元 组 .第 3 个 和 第 4 个 元 组 
及 第 5 个 元 组 分 别 构成 了 3 个 SEG 。 
表 6-48 再 次 插入 新 元 组 后 得 到 的 主体 实例 
































Name Dept Title Salary VTs: VTe TTs: TTe 
Black EN Engineer 7500 2017-01-01: Now 2017-01-10: 2017-08-10 
Black EN Engineer 7500 2017-01-01: 2017-07-31 2017-08-10: uc 
Black EN Sr. Engineer| 8500 2017-08-01: Now 2017-08-10: 2018-01-10 
Black EN Sr. Engineer 8500 2017-08-01: 2017-12-31 2018-01-10: uc 
Black EN Sr. Engineer 9000 2018-01-01: Now 2018-01-10: uc 


从 以 上 Black 历史 记录 演变 过 程 可 以 看 出 ,此 时 Now 实际 上 是 按照 * 过 去 ”时 间 绑 定 ， 
即 Now 具有 过 去 时 间 语 义 。 另 外 ,由 于 双 时 态 要 求 ,需要 同时 “插入 ?两 条 记录 ,分 别 为 诛 有 
数据 的 最 新 版 本 和 新 添加 记录 的 当前 版 本 , 原 有 数据 作为 历史 旧版 本 仍然 保留 在 数据 库 中 。 
由 此 可 知 ,相对 于 有 效 时 间 数 据 库 , 基 于 变量 的 双 时 态 数 据 库 的 数据 操作 技术 更 为 复杂 和 
精细 。 第 
2. 删除 更 新 6 
双 时 态 关 系 删除 只 能 针对 当前 版 本 ,因此 只 需要 根据 删除 条 件 在 当前 版 本 集合 中 选择 | 章 
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出 满足 条 件 的 元 组 ,然后 将 其 中 的 uc 与 CT 绑 定 后 作为 历史 记录 予以 保留 即 可 。 
【 例 6-19】 删除 表 6-48 所 示 主 体 实 例 中 满足 条 件 Salary 一 8500 的 元 组 ,其 中 CT 一 
2018-03-01。 删 除 操作 后 的 主体 实例 如 表 6-49 所 示 。 


表 6-49 删除 满足 条 件 Salary 二 8500 的 当前 版 本 后 得 到 主体 实例 
































Name Dept Title Salary VTs: VTe TTs: TTe 

Black EN Engineer 7500 2017-01-01: Now 2017-01-10: 2017-08-10 
Black EN Engineer 7500 2017-01-01: 2017-07-31 2017-08-10: uc 
Black EN Sr. Engineer 8500 2017-08-01: Now 2017-08-10: 2018-01-10 
Black EN Sr. Engineer 8500 2017-08-01: 2017-12-31 | 2018-01-10: 2018-03-01 
Black EN Sr. Engineer 9000 2018-01-01: Now 2018-01-10: uc 

3. 修改 更 新 


修改 操作 实际 上 是 删除 相应 的 原 当 前 版 本 ,将 已 经 更 新 的 元 组 作为 新 的 当前 版 本 插入 

到 时 态 关 系 当 中 , 即 分 别 施行 前 述 的 删除 与 插入 算法 。 
【 例 6-20】 如 果 CT 一 2018-03-10 需要 将 表 6-48 中 元 组 Tw 修改 为 Tu ,其 中 : 
Tio = (Black,EN,Engineer,7500,2017-01-01: 2017-07-31,2017-08-10: uc) 
Tn = (Black,EN,Engineer,7800,2017-01-01: 2017-07-31,2018-03-10: uc) 

按照 上 述 算法 ,得 到 修改 后 时 态 关系 如 表 6-50 所 示 。 类 似 也 可 以 讨论 对 于 有 效 时 间 进 

















行 的 修改 。 
表 6-50 修改 元 组 后 得 到 主体 实例 

Name Dept Title Salary VTs: VTe TTs: TTe 

Black EN Engineer 7500 2017-01-01: Now 2017-01-10: 2017-08-10 
Black EN Engineer 7500 2017-01-01: 2017-07-31 | 2017-08-10: 2018-03-10 
Black EN Engineer 7800 2017-01-01: 2017-07-31 2018-03-10: uc 
Black EN Sr. Engineer| 8500 2017-08-01: Now 2017-08-10: 2018-01-10 
Black EN Sr. Engineer 8500 2017-08-01: 2017-12-31 | 2018-01-10: 2018-03-01 
Black EN Sr. Engineer 9000 2018-01-01: Now 2018-01-10: uc 




















由 上 述 讨论 过 程 实际 可 以 得 到 如 下 的 双 时 态 关系 运算 的 封闭 性 定理 。 


【定理 6-1】 


基于 变量 的 双 时 态 关 系 进行 上 述 时 态 查 询 与 更 新 操作 后 得 到 结果 依然 是 


一 个 双 时 态 关 系 。 因 此 ,数据 查询 与 更 新 操作 都 是 双 时 态 关系 集合 到 自身 的 映射 。 


6.6 时 态 关 系数 据 语 言 TSQL2 


TSQL2 是 基于 BCDM 的 双 时 态 数据 库 语言 ,基本 要 求 是 时 态 关 系 表 中 不 能 含有 非 时 
态 部 分 相同 而 时 间 标 签 不 同 的 元 组 , 即 一 个 快照 只 能 具有 一 个 时 间 标 签 , 因 此 常规 关系 元 组 
中 的 时 间 标 签 通常 为 时 间 元 素 。 
下 面 以 一 个 医疗 数据 库 为 实例 简要 介绍 TSQL2 的 基于 常规 SQL 的 时 态 扩展 基本 特 
点 。 医 疗 实例 数据 库 由 “处 方 ”" 和 “诊断 ”两 个 时 态 关系 表 组 成 .其 中 “处 方 ”关系 表 记 录 医 生 
给 病人 开 的 医疗 处 方 , 语 义 约束 是 每 种 处 方 只 开 一 种 药 ;“ 诊 断 " 关 系 表 记 录 医 生 给 病人 所 


做 的 检查 ,而 检查 作为 一 种 “事件 ”总 是 发 生 在 某 一 时 刻 。 
6.6.1 双 时 态 关 系数 据 创 建 


作为 一 种 关系 型 数据 语言 ,TSQL2 需要 兼容 常规 关系 数据 操作 ; 而 作为 一 种 双 时 态 数 
据 语 言 ,TSQL2 还 需要 能 够 处 理 单 时 态 的 各 种 情形 。 基 于 上 述 考 虑 ,TSQL2 将 关系 型 的 基 
本 表 分 为 下 述 4 种 类 型 。 
(1) 快照 关系 。 其 中 关系 元 组 无 时 间 标 签 , 即 为 常规 关系 表 。 
(2) 有 效 时 间 关 系 。 其 中 关系 元 组 具 相 应 的 有 效 时 间 标 签 。 此 时 ,按照 时 间 标 签 对 应 
的 实际 情形 又 分 为 “状态 ”和 “事件 ”两 种 类 型 。 
Q@ 有 效 时 间 状 态 关 系 : 用 以 表示 实体 所 处 的 状态 (State) ,时 间 标 签 为 对 象 所 处 状态 的 
有 效 时 间 且 通常 表示 为 时 间 元 素 , 由 子 句 AS VALIDLSTATE] 标 识 , 其 中 STATE 可 选 且 
为 默认 。 
@ 有 效 时 间 事 件 关 系 : 用 以 表示 实体 发 出 的 事件 (Event) ,时 间 标 签 表示 事件 发 生 的 
确定 时 刻 且 通常 为 时 间 点 的 集合 ,由 子 句 AS VAIID EVENT 标识 。 
(3) 事务 时 间 时 态 关 系 。 其 中 关系 元 组 具有 相应 事务 时 间 标 签 ,由 子 句 AS 
TRANSACTION 标识 。 
(4) 双 时 态 关 系 类 。 由 于 其 中 包含 有 效 时 间 ,因此 可 分 为 “状态 ”和 * 事 件 ” 两 种 情形 。 
O@ 双 时 态 状 态 关 系 : 关系 元 组 同时 具有 事务 时 间 和 有 效 时 间 标 签 ,其 中 有 效 时 间 通 常 
为 时 间 期 间 集 合 , 由 子 句 AS VALID [STATE] AND TRANSACTION 标识 。 
@ 双 时 态 事件 关系 : 关系 元 组 同时 具有 事务 时 间 和 有 效 时 间 标 签 ,其 中 有 效 时 间 通 常 
为 表示 相应 事件 发 生 的 时 间 点 集合 ,由 子 句 AS VALID EVENT AND TRANSATION 
标识 。 
【 例 6-21】 创建 双 时 态 状态 关系 “处 方 ” 如 下 。 
CREATE TABLE 处 方 ( 
病人 姓名 CHAR(10)， 
医生 姓名 CHAR(10)， 
药 名 CHAR(30)， 
剂量 CHAR(30)， 
服药 间隔 INTERVAL MINUTE)， 
AS VALID [STATE] DAY AND TRANSACTION; 
说 明 : 语句 中 属性 "服药 间隔 "表示 每 隔 多 少 分 钟 服药 一 次 。 以 AS 引领 的 子 负 表明 所 
建立 的 是 双 时 态 状 态 关 系 , 具 有 效 时 间 和 事务 时 间 两 个 时 态 属性 。 有 效 时 间 由 时 间 期 间 表 
示 且 粒度 为 天 ; 事务 时 间 粒 度 由 系统 决定 。 


6.6.2 双 时 态 关 系数 据 和 查询 


时 态 关 系 操作 需要 具有 封闭 性 ,即时 态 关系 元 组 经 过 数据 操作 (查询 和 更 新 等 ) 结 果 还 
应 当 具 有 时 态 元 组 的 结构 形式 , 即 操作 前 具有 怎样 的 时 间 标 签 ,操作 后 还 应 当 具 有 相应 形式 
的 时 间 标 签 。 由 于 关系 操作 (如 查询 中 的 投影 和 连接 ) 会 使 得 关系 元 组 发 生 改变 ,因此 时 态 
关系 操作 的 一 个 基本 点 就 是 如 何 为 改变 后 的 关系 元 组 赋予 适当 的 时 间 标 签 。 

从 形式 上 来 说 ,时 态 关系 查询 可 分 为 隐 式 具有 时 间 约束 和 显 式 带 有 时 间 约 束 两 种 情形 。 
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1. 不 显 式 带 有 时 间 约 束 查 询 

当 查 询 要 求 中 不 显 式 具有 时 间 约 束 时 ,由 于 时 态 关 系 运 算 封闭 性 要 求 , 查 询 处 理 结果 应 
该 还 是 具有 相应 时 间 标 签 的 时 态 元 组 集合 。 但 对 于 用 户 而 言 , 可 以 根据 需要 确定 在 最 终 输 
出 结果 中 是 带 时 间 标 签 的 时 态 关 系 或 不 带 有 时 间 标 签 的 常规 关系 ,而 这 可 以 通过 在 查询 关 
键 词 SELECT 之 后 添加 关键 词 SNAPSHOT 与 否 实现 。 

【 例 6-22】 查询 所 有 服 过 红 霉 素 药 物 的 病人 姓名 。 

SELECT SNAPSHOT 病人 姓名 

FORM 处 方 
WHERE 药 名 = ' 红 霉 素 '… 

说 明 : 查询 中 无 时 间 要 求 且 无 须 时 态 标签 ,通过 添加 SNAPSHOT 就 可 以 使 得 在 查询 
结果 去 除 相应 时 间 标签 而 只 输出 病人 姓名 列表 。 

【 例 6-23】 查询 曾 服 过 红 霉 素 的 病人 姓名 及 其 服药 期 间 。 

SELECT 病人 姓名 

FROM 处 方 
WHERE 药 名 = ' 红 霉 素 '; 

说 明 : 查询 结果 为 所 有 服 过 红 霉 素 的 病人 姓名 及 其 服药 期 间 的 集合 。 如 果 病 人 连续 服 
用 此 药 ,集合 有 若干 服药 期 间 首 尾 相 连 , 则 TSQL2 将 这 些 服药 期 间 自 动 娄 并 为 一 个 更 大 时 
间 区 间 。 

(1) 时 态 关 系 投影 。 设 有 时 态 关系 模式 TR(Ai, As, …，Ak,VTs,VTe,TTs,TTe)， 
其 中 Ai，…，Ak 为 TR 常规 关系 属性 。 如 需 对 TR 在 属性 A ,Ab ,…，Aip(ip<k) 上 投影 ， 
此 时 查询 语句 为 : 

SELECT Ai,AMi2, *, Mip 

FROM TR; 

查询 结果 为 一 个 有 改变 了 的 元 组 构成 的 新 关系 TRo (A ,Ap ,…， Ap)。 由 于 投影 后 可 
能 产生 常规 属性 完全 相同 而 仅 时 间 标 签 不 同 的 元 组 ,如 前 所 述 ,此 时 需要 按照 TSQL2 基本 
要 求 , 需 将 其 中 时 间 标 签 进行 归并 。 当 其 中 多 个 有 效 时 间 期 间 “ 首 尾 ” 相 接 ,就 将 它们 归并 成 
一 个 时 间 区 间 , 从 而 得 到 一 个 新 的 时 间 期 间 集 合作 为 相应 元 组 的 时 间 标 签 。 此 时 ,由 于 关系 
元 组 和 相应 时 间 标 签 都 发 生 了 变化 ,这 就 相当 于 在 查询 过 程 中 或 过 程 后 进行 相应 的 时 态 关 
系 “ 重 构 ”(restruction) 。 这 种 由 投影 引发 构造 新 时 态 关 系 的 过 程 就 是 时 态 关 系 重 构 , 其 要 
点 是 在 FROM 等 子 句 中 使 用 投影 和 重 构 之 后 的 新 的 关系 。 正 是 由 于 能 够 在 查询 子 句 中 重 
构 新 的 时 态 关 系 ,TSQL2 就 可 以 通过 时 态 关 系 重 构 机 制 而 方便 地 获得 所 需 时 间 标 签 。 

【 例 6-24】 查询 凡 服 药 必 有 红 霉 素 的 病人 姓名 。 

SELECT SNAPSHOT P1. 病人 姓名 

FROM 处 方 (病人 姓名 ) AS P1, 处 方 (药品 )AS P2 
WHERE P2. 药 名 = ' 红 霉 素 ' 
AND VALID (P2) = VALID(P1); 
说 明 : 在 SELECT 子 句 中 使 用 关键 字 SNAPSHOT, 故 查询 结果 为 病人 姓名 列表 。 
在 FROM 子 句 中 使 用 了 重 构 关 系 P1 和 P2。 其 中 ,P1 是 “处 方 ” 在 “病人 姓名 ”上 投 


影 ,时 间 标 签 是 病人 所 有 服药 期 间 集 合 ,而 无 论处 方 是 那个 医生 所 开 、 是 何 种 药品 及 剂量 
和 服药 间隔 如 何 。P2 相当 于 “SELECT 病人 姓名 , 药 名 FROM 处 方 *。 此 时 可 能 就 需要 
进行 “ 重 构 ”"。 在 应 用 条 件 VALID (P2) 二 VALID (P1) 时 , 隐 含 了 条 件 P1. 病人 姓名 = 
P2. 病人 姓名 。P2 的 时 间 标 签 是 指 病 人 服 某 种 药 的 期 间 集 合 。 在 WHERE 子 句 中 ,存在 
P2 药 名 为 “ 红 霉 素 ” 的 限制 条 件 , 因 而 VALID (P2) 是 指 病人 服用 * 红 霉 素 ” 的 期 间 集 合 ， 
而 VALID (P1) 是 病人 服用 任意 药 的 集合 。VALID (P2) 二 VALID(P1), 则 说 明 该 病人 凡 
是 服药 必 有 “* 红 霉 素 ”。 

(2) 时 态 关 系 连接 。 在 时 态 关系 连接 过 程 中 ,除了 常规 连接 条 件 之 外 ,从 构建 连接 后 元 
组 有 效 时 间 出 发 ,还 需要 确定 连接 后 新 元 组 的 时 间 标 签 , 这 就 需要 分 析 处 理 被 连接 两 个 元 组 
时 间 标 签 的 关系 问题 。 

【 例 6-25】 查询 与 红 霉 素 同 时 服用 其 他 药品 名 、 服 用 此 药 病人 姓名 及 同时 服用 的 期 间 。 

SELECT P1. 病 人 姓名 ,P2. 药 名 

FROM 处 方 RS P1, 处 方 AS P2 
WHERE P1. 药 名 = ' 红 霉 素 'RND P2. 药 名 <>' 红 霉 素 ' 
AND P1. 病 人 姓名 = P2. 病 人 姓名 : 

说 明 : FROM 子 句 中 为 关系 “处 方 "定义 了 两 个 元 组 变量 名 , 即 Pl 和 P2。 这 些 元 组 变 
量 名 称 为 关联 名 。 对 于 关联 名 P1 和 P2, 除 须 满足 WHERE 子 句 要 求 外 ,还 须 满足 默认 条 
件 : Pl 和 P2 所 代表 元 组 在 有 效 时 间 上 相交 ,查询 结果 中 的 有 效 时 间 是 相应 相交 部 分 。 

(3) 时 态 关 系 划分 。 在 TSQL2 中 ,即使 元 组 初始 的 时 间 标 签 都 为 时 间 期 间或 时 间 点 ， 
但 如 果 是 先进 行 投影 之 后 再 实行 其 他 查询 操作 ,就 有 可 能 出 现 投影 后 元 组 时 间 标 签 为 时 间 
元 素 的 情形 。 此 时 关系 元 组 可 表示 为 ， 

(al ,az yan) {pis pe pm} (6.1) 

其 中 , (a ,as，…,a,) 为 非 时 态 属性 ; {pi ;ps，… pm) 为 时 间 标 签 , 而 记 ,ps，… ,pw 为 时 
间 期 间 。 在 实际 应 用 中 ,可 能 会 出 现 需要 “一 个 一 个 ”甄别 其 中 时 间 标 签 的 情形 ,因此 从 技术 
上 考虑 ,需要 将 式 (6. 1) 转 换 为 式 (6.2) 的 形式 : 

(alyaz, dn), pi 


(al ,az 和 an)， ps (6.2) 


(al ,az，… dan)， pn 

即将 一 个 元 组 变 为 m 个 元 组 。 这 种 变换 机 制 称 为 时 态 关系 划分 (partition)。 当 然 这 种 时 态 关 
系 划 分 不 符合 TSQL2 中 基本 要 求 , 出 现 多 个 除 时 间 标 签 外 其 余部 分 都 相同 的 元 组 ,因此 不 能 
出 现在 输入 的 关系 表 和 输出 的 关系 表 当 中 ,但 可 以 出 现在 “中 间 ” 处 理 过 程 当 中 。 因 此 ,TSQL2 
允许 此 种 划分 出 现在 FROM 子 句 。TSQL2 实际 应 用 中 ,如 需 将 所 涉及 关系 进行 时 态 划 分 , 需 
在 其 后 添加 关键 词 (PERIOD) 。 时 态 关 系 划 分 通常 用 于 具有 连续 时 间 条 件 的 查询 。 

【 例 6-26】 查询 连续 服用 同一 种 药 超过 6 个 月 的 病人 姓名 、 药 名 和 服药 期 间 。 

SELECT SNAPSHOT 病人 姓名 , 药 名 , VALID(P) 

FROM 处 方 (病人 姓名 , 药 名 ) (PERIOD) ASP 


WHERE CAST(VALID (P) AS INTERVAL MONTH) 
> INTERVAL'6 'MONTH; 
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说 明 : 处 方 关系 先 对 病人 姓名 和 药 名 两 个 属性 进行 前 述 时 态 重 构 , 得 到 “中 间 ” 时 态 关 
系 为 形 如 (病人 姓名 , 药 名 ) 二 元 组 的 集合 ,而 其 中 每 个 二 元 组 就 有 可 能 具有 形 如 式 (6.1) 的 
时 间 标 签 。 此 时 需要 对 对 重 构 后 关系 进行 时 态 划 分 ,通过 关键 词 (PERIOD) 得 到 关系 卫 ,此 
时 了 中 每 个 元 组 时 间 标 签 为 单一 时 间 期 间 而 非 时 态 元 素 的 集合 ,系统 使 用 此 时 间 标 签 判断 
是 否 连续 服 某 药 超过 6 个 月 。 此 外 ,CAST 是 把 期 间 转 换 为 以 月 为 单位 的 间隔 的 转换 函数 。 
SELECT 子 句 中 有 关键 字 SNAPSHOT ,查询 结果 中 无 时 间 标 签 。 为 表示 连续 服药 实际 时 
间 ,语句 中 以 VALID(P) 作 为 查询 结果 的 第 三 个 属性 。 查 询 结果 中 同一 病人 姓名 和 药 名 可 
能 对 应 多 个 元 组 ,每 个 元 组 有 不 同期 间 。 例 如 ,在 SELECT 子 句 中 不 用 保留 字 
SNAPSHOT, 也 可 得 到 类 似 的 结果 。 
2. 具有 时 间 约 束 查询 
显 式 具有 时 间 约 束 查询 可 以 分 为 具有 效 时 间 、 事 务 时 间 情 形 。 
1) 具有 效 时 间 约 束 查询 
实际 应 用 中 使 用 VALID 子 句 限制 查询 结果 中 有 效 期 间 的 范围 。 
【 例 6-27】 查询 在 2016 年 ,医生 给 John 开 过 哪些 药品 。 
SELECT 药 名 VALID INTERSECT(VALID( 处 方 ),PERIORD'[2016-1-1,， 2016-12-31]7) 
FROM 处 方 
WHERE 病人 姓名 == 'John'; 
说 明 : 查询 结果 是 John 在 2016 年 曾经 服 过 的 药 名 ,每 个 药 名 后 附 有 一 个 时 间 标 签 , 它 
是 John 在 2014 年 服用 此 药 期 间 集 合 。 如 果 无 VALID 子 句 , 则 查询 结果 将 是 John 曾 服 过 
所 有 药 名 ,每 种 药 名 所 附 时 间 标 签 是 John 服用 此 药 期 间 集合 。 
2) 具 事 务 时 间 约 束 查询 
以 上 查询 未 出 现 对 事务 时 间 的 查询 ,而 实际 上 双 时 态 数 据 库 中 事务 时 间 也 是 查询 条 件 
之 一 ,但 通常 默认 的 都 是 查询 数据 的 最 新 版 本 。 设 T 为 关系 的 元 组 ,这 相当 于 以 下 列 条 件 
作为 查询 事务 时 间 的 缺 省 条 件 : TRANSACTION (T) OVERLAPS (CONTAINS) 
CURRENT-TIMESTAMP。 
当 查 询 数 据 以 往 版 本 时 ,就 需要 明确 地 指明 事务 时 间 。 
【 例 6-28】 缺 省 事务 时 间 查 询 : 查询 John 的 历次 处 方 。 
SELECT * 
FROM 处 方 
WHERE 病人 姓名 = 'John'; 
说 明 : 查询 未 显 式 指明 事务 时 间 条 件 , 因 而 按 当前 事务 时 间 查 询 。 如 果 处 方 被 修改 过 ， 
则 查询 结果 为 最 新 修改 过 的 处 方 版 本 。 
【 例 6-29】 指定 事务 时 间 查 询 : 查询 自 2016 年 10 月 1 日 所 看 到 John 历次 处 方 的 
版 本 。 
SELECT * 
FROM 处 方 ASP 


WHERE 病人 姓名 = 'John' 
RND TRANSACTION(P) OVERLRPS DRTE'2016 一 10 一 01' 


【 例 6-30】 查询 John 在 2016 年 3 月 2 日 使 用 过 处 方 最 近 一 次 被 修改 的 时 间 。 


SELECT SNAPSHOT BEGIN( TRANSACTION( P2)) 
FROM 处 方 RS P1.P2 
WHERE P1. 病 人 姓名 = 'John'AND P2. 病 人 姓名 = 'John' 
AND VALID(P1) OVERLAPS DRTE'2016 ~— 03 — 02" 
AND VALID(P2) OVERLAPS DATE, 2016 — 03 — 02"' 
AND TRANSACTION(P1) MEETS TRANSATION(P2) 

说 明 : Pl1、P2 是 两 个 关联 名 ,分 别 代 表 处 方 中 两 个 元 组 ,其 中 病人 姓名 都 是 John。 有 效 
期 间 都 覆盖 2016-03-02, 都 是 John 在 2016 年 3 月 2 日 使 用 过 的 处 方 。 但 Pl 与 P2 事务 时 
间 不 同 。P2 事务 时 间 紧 接 在 Pl 之 后 ,因此 ,Pl 是 未 修改 过 的 处 方 ,P2 是 修改 后 的 处 方 ,Pl 
修改 时 间 在 TRANSATION(P2) 开 始 之 前 。 如 果 该 处 方 仅 修改 一 次 , 则 此 时 间 即 BEGIN 
(TRANSACTION(P2)) 就 为 所 要 求 的 答案 ; 如 果 该 处 方 多 次 修改 , 则 查询 结果 将 是 该 处 方 
历次 被 修改 的 时 间 , 而 最 后 一 次 的 修改 时 间 就 是 所 要 求 的 答案 。 


6.6.3 双 时 态 关 系数 据 更 新 


TSQL2 数据 更 新 包括 数据 插入 删除 和 修改 。SQL 中 的 相应 更 新 语句 都 可 推广 到 
TSQL2。 

1. 数据 插入 

插入 数据 时 ,如 果 关 系 “ 处 方 " 已 有 属性 相同 的 元 组 , 则 新 插入 数据 应 与 该 元 组 归并 , 即 
在 相应 元 组 时 间 标 签 中 添加 插入 数据 有 效 期 间 。 只 有 当 相应 关系 中 没有 任何 元 组 的 属性 值 
与 插 和 人 元 组 完全 相同 时 ,插入 的 处 方 元 组 才能 作为 一 个 单独 元 组 插入 到 关系 “处 方 * 中 。 

【 例 6-31】 插入 一 处 方 元 组 ,但 处 方 元 组 有 效 时 间 终 止 时 刻 待定 。 

INSERT INTO 处 方 

VALUES( 'John', 'White', 'Vitamin E', '100mg' INTERVRL '8:00'MINUTE) ; 

说 明 : 服药 间隔 数据 类 型 为 INTERVAL, 值 为 8, 时 间 粒 度 为 分 。 在 本 例 中 未 指明 时 
间 标 签 , 则 在 插入 时 时 间 标 签 取 缺 省 值 : VALID PERIOD (CURRENT-TIMESTAMP， 
NOBIND(CURRENT-STAMP) ) 。 

CURRENT-TIMESTAMP 表示 指 插入 时 的 当前 时 间 , 其 粒度 由 系统 决定 。 括 号 中 第 
一 、 二 项 分 别 表示 有 效 时 间 的 开始 和 终止 时 刻 。 例 如 ,插入 时 终止 时 刻 值 明确 就 直接 填 入 ， 
若 终 止 时 刻 在 开 处 方 时 难以 确定 , 需 根 据 药 效 确定 , TSQL2 使 用 变量 NOBIND 
(CURRENT-STAMP) 了 予以 记录 ,查询 时 该 变量 就 与 当前 查询 时 间 绑 定 。 注 意 ,这 种 变量 形 
式 在 SQL 中 不 被 允许 。 

【 例 6-32】 插入 一 处 方 , 处 方 有 效 终止 时 刻 确定 。 

INSERT INTO 处 方 

VALUES( 'John', 'White', Vitamin E', '100mg'INTERVAL'8:00'MINUTE) 
VALID PERIOD'[2017 ~- 02 ~ 01,2017— 08— 31]" 

说 明 : 插入 的 这 条 处 方 的 有 效 期 间 为 2017 年 2 月 到 8 月 。 

2. 数据 删除 

【 例 6-33】 删除 2017 年 10 月 开 给 John 的 所 有 处 方 。 
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DELETE FROM 处 方 
WHERE 病人 姓名 = 'John' 
VALID PERIOD'[2017- 10 ~ 01,2017-10-31]' 
说 明 : 凡 在 2017 年 10 月 开 给 John 所 有 处 方 都 将 被 和 删除。 如果 有 处 方 有 效 期 只 部 分 
在 2017 年 10 月 , 则 从 有 效 期 中 删除 2017 年 10 月 中 部 分 而 保留 其 余部 分 。 
3. 数据 修改 
【 例 6-34】 改变 John 在 2017 年 2 月 至 8 月 的 Vitamin E 的 剂量 为 50mg。 
UPDATE 处 方 
SET 剂量 TO'50mg' 
VALID PERIOD '[2017- 02- 01,2017— 08-31]' 
WHERE 病人 姓名 = ' John'AND 药 名 = Vitamin 了 


本 章 小 结 


具有 时 间 信 息 的 数据 是 一 类 特殊 的 数据 ,但 其 讨论 和 研究 还 是 遵循 一 般 数据 的 技术 路 
线 , 即 需要 讨论 相应 的 数据 结构 ,建立 适 于 计算 机 表示 和 存储 的 数据 类 型 及 基于 相应 类 型 的 
数据 和 运算。 在 TDB 中 ,采用 基于 线性 的 离散 数据 结构 ; 设计 了 时 间 点 、 时 间 期 间 和 时 间 元 
素 及 时 间 戳 的 时 间 类 型 ; 建立 了 跨 类 型 的 时 间 数 据 代数 运算 和 相应 的 关系 演算 ,从 而 为 研 
究 开 发 TDB 相关 技术 奠定 了 必要 的 原理 和 技术 基础 。 

在 TDB 技术 实现 方面 不 能 笼统 地 考虑 时 间 ,需要 根据 数据 库 管理 时 间 的 自身 特征 对 时 
间 进 行 不 同 角度 的 分 析 与 探讨 ,基本 的 问题 角度 在 技术 上 通常 称 为 维度 ,这 就 引入 了 基于 时 
态 数据 管理 的 3 个 基本 维度 , 即 用 户 定义 时 间 、 有 效 时 间 和 事务 时 间 。 引 入 时 间 维 度 的 意义 
在 于 能 够 对 时 态 数据 库 进行 基本 的 分 类 , 即 分 为 基于 用 户 定义 时 间 的 快照 数据 库 、 基 于 有 效 
时 间 的 历史 数据 库 、. 基 于 事务 时 间 的 回 滚 数据 库 和 同时 基于 有 效 时 间 与 事务 时 间 的 双 时 态 
数据 库 。 

时 态 数 据 模型 是 构建 时 态 数 据 库 的 基础 。 基 于 历史 关系 数据 模型 HRDM 可 以 构建 起 
历史 数据 库 ,这 可 以 看 作 是 一 个 非 1NF 的 时 态 RDB; 基于 双 时 态 数据 模型 BCDM 可 以 构 
建 双 时 态 数据 库 ,如 果 采 用 其 RDM 形式 ,就 可 看 作 一 个 1NF 的 时 态 RDB。 

数据 的 有 效 时 间 可 以 是 不 断 延伸 的 ,在 实际 问题 当中 ,常常 会 出 现 数 据 有 效 时 间 在 对 该 
数据 进行 操作 时 尚未 结束 ,但 何 时 结束 又 难以 完全 确定 的 情形 。 时 态 数 据 库 处 理 此 种 情形 
的 有 效 途径 就 是 引入 有 效 时 间 变 量 Now。 数 据 事务 时 间 也 有 类 似 情形 ,需要 引入 事务 时 间 
变量 uc。 

有 效 时 间 变 量 Now 在 数据 操作 时 绑 定 于 操作 对 应 的 当前 时 间 CT。 但 是 由 于 事务 时 
间 与 有 效 时 间 的 非 同步 性 质 .Now 并 不 总 表示 当前 时 间 ,还 可 以 表示 过 去 时 间 和 将 来 时 间 ， 
这 就 在 时 态 数据 库 中 引入 了 Now 语义 的 分 析 处 理 及 查询 结果 不 确定 性 问题 。 带 有 变量 的 
双 时 态 数 据 查 询 与 更 新 操作 时 需要 对 Now 语义 进行 比较 精细 的 分 析 和 处 理 。 

TSQL2 是 对 应 于 BCDM 的 双 时 态 RDB 语言 .其 基本 点 是 不 能 出 现 只 有 了 时间 属性 不 同 
的 时 态 元 组 ,因此 ,将 相应 时 间 属 性 进行 必要 的 处 理 , 如 时 间 归 并 就 是 时 态 数 据 操作 的 一 项 
基本 任务 。 作 为 SQL 的 时 态 扩展 ,TSQL2 是 时 态 数 据 操作 的 标准 规范 。 


RDB 可 以 看 作 是 数据 管理 技术 在 事务 维度 上 的 展开 ,而 SDB 和 TDB 可 以 看 作 是 在 事 
务 维 度 基础 上 分 别 添加 上 了 空间 维度 和 时 间 维 度 。 通 过 日 常 经 验 可 知 , 当 对 所 涉及 问题 进 
行 空间 和 时 间 因 素 考 量 时 ,实际 上 就 到 达 了 一 个 对 问题 更 为 深入 和 更 加 全 面 精细 的 研讨 阶 
段 。 因 此 ,SDB 和 TDB 出 现 应 该 是 数据 库 技术 发 展 的 一 种 必然 ,是 与 整个 计算 机 科学 技术 
发 展 和 应 用 领域 拓 广 相 适 应 的 。 
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第 7 章 XML 数据 库 





XML 是 eXtensible Markup Language( 可 扩展 标记 语言 ) 的 缩写 。 标 记 语 言 的 功能 是 
对 文档 提供 规范 化 的 描述 ,用 以 指明 文档 中 哪些 部 分 是 具有 实际 语义 的 内 容 , 哪 些 是 用 以 描 
述 这 些 内 容 的 标记 ,同时 指出 这 些 标记 应 当 如 何 使 用 。 当 前 ,XML 已 经 成 为 互联 网 数据 表 
示 与 交换 的 标准 。XML 的 要 点 在 于 能 够 对 文档 文件 的 数据 内 容 即 所 表达 语义 进行 适当 描 
述 ,使 得 计算 机 系统 能 够 通过 相应 标记 对 数据 内 容 进 行 识别 和 对 数据 文件 实施 有 效 管理 ,由 
此 可 知 ,XML 技术 和 数据 库 技术 的 结合 形成 XML 数据 库 也 就 是 顺理成章 的 了 。 本 章 将 简 
述 XML 文档 .XML 数据 模型 和 XML 数据 索引 等 XML 数据 库 的 基本 技术 。 


7.1 XML 文档 


作为 一 种 使 用 方便 灵活 的 元 语言 ,XML 文档 具有 良好 的 数据 存储 格式 、 应 用 可 扩展 性 
和 便于 网 络 传 输 等 特性 ,这 使 得 XML 适用 于 网 络 数据 自身 的 信息 提取 和 数据 之 间 的 信息 
交互 。 自 1996 年 推出 后 ,XML 得 到 迅速 发 展 和 广泛 应 用 。 如 今 ,XML 已 被 看 作 是 计算 机 
科学 技术 发 展 史 上 具 里 程 碑 意义 的 重要 技术 之 一 ,并 将 成 为 一 种 对 现实 技术 世界 产生 重要 
影响 的 规范 标准 。 


7.1.1 标记 与 标记 语言 


标记 是 对 文档 内 容 做 出 说 明 但 不 需要 实际 输出 的 字符 集 , 如 高 级 程序 设计 语言 中 的 关 
键 字 和 注释 行 都 可 以 看 作 是 某 种 意义 下 的 符号 标记 。 作 为 一 种 元 语言 ,XML 相对 于 表达 
“数据 ?内 容 的 常规 语言 具有 更 高 的 语义 级 别 和 逻辑 层次 。 

1. 标记 语言 : 元 语言 

(1) 标记 Cmarkup): 文档 中 为 了 “解释 ?相关 内 容 的 含义 但 不 必 * 实 际 ?输出 的 一 些 注 记 
字符 。 换 言 之 “标记 ?可 看 作 一 种 表达 文档 中 元 数据 信息 即 关 于 数据 集 本 身 构 成 信息 的 方 
法 ,其 特征 是 将 相应 文档 划分 成 各 种 部 件 并 对 其 分 别 加 以 标识 。 

(2) 标记 语言 (markup language) : 对 文档 中 的 标记 进行 有 效 使 用 的 一 种 规范 性 和 形式 
化 的 描述 系统 ,其 作用 在 于 提供 标记 使 用 的 基本 规范 和 语法 约束 。 标 记 语言 使 用 文本 串 或 
其 他 “标记 符 ” 来 界定 和 描述 文档 中 的 数据 内 容 。 

按照 使 用 的 实际 效果 ,标记 语言 可 分 为 下 述 两 种 类 型 。 

@ 格式 化 标记 语言 : 对 于 文档 输出 格式 进行 描述 和 标记 的 语言 。 例 如 ,HTML(Hyper 
Text Markup Language) 就 是 一 种 用 于 网 页 文档 输出 的 格式 化 标记 语言 , 它 通 过 指定 的 标 








签 集合 对 网 页 所 需要 采用 的 输出 格式 进行 描述 和 刻画 。 从 文档 输出 角度 来 看 ,使 用 格式 标 
记 语 言 的 意义 在 于 允许 同一 内 容 的 文档 在 不 同情 况 下 可 根据 实际 需要 而 具有 不 同 的 输出 
格式 。 

@ 功能 性 标记 语言 : 对 于 文档 语义 内 容 进行 描述 和 标记 的 语言 。 例 如 ,本 章 所 要 讨论 
的 XML 就 是 一 种 具有 语义 描述 功能 的 标记 语言 。 从 文档 描述 角度 考虑 ,使 用 功能 标记 语 
言 的 意义 在 于 明确 标记 文档 中 各 个 部 分 在 语义 上 分 别 表示 怎样 的 内 容 , 这 样 就 会 有 助 于 在 
查询 过 程 中 进行 数据 语义 识别 ,由 此 得 到 文档 查询 结果 并 不 是 通常 存储 的 整个 文档 ,而 是 能 
够 像 RDB 那样 ,从 一 个 文档 或 多 个 文档 中 抽取 相关 部 分 数据 进行 整合 而 得 到 相应 查询 
结果 。 

正 是 由 于 能 够 通过 标记 语言 进行 文档 内 容 的 语义 识别 ,这 就 在 本 质 上 隐 含 了 基于 数据 
库 管 理 XML 文档 的 可 能 性 。 

引入 标记 语言 的 结果 是 将 文档 中 的 内容” 部 分 和 “说 明 ” 部 分 进行 适当 分 离 。 如 果 将 文 
档 内 容 看 作 是 “ 硬 ” 的 实质 性 部 分 ,将 说 明 部 分 看 作 是 “ 软 ” 的 逻辑 性 部 分 ,那么 在 标记 语言 
中 ,这 种 “内容 ?和 * 说 明 ” 的 分 离 就 可 以 类 比 于 在 数据 管理 技术 演变 过 程 中 将 DBMS 从 物理 
文件 处 理 过 程 中 分 离 出 来 。 

在 XML 之 前 ,除了 已 经 实际 使 用 的 格式 化 标记 语言 HTML 之 外 ,实际 还 有 早先 提出 
的 功能 性 标记 语言 (Standard Generalized Markup Language, SGML)。 作 为 一 种 语义 描述 
工具 ,SGML 自 20 世纪 80 年 代 已 开始 使 用 , 它 具 有 良好 的 扩展 功能 ,在 数据 分 类 与 数据 索 
引 过 程 中 发 挥 着 良好 的 作用 。 但 SGML 机 制 过 于 复杂 且 价格 昂贵 ,难以 有 效 满足 大 众 化 网 
络 社会 的 实际 需求 。 实 际 上 ,可 以 将 SGML 看 作 XML 的 一 个 超 集 。 

2. 语义 标记 语言 XML 

XML 可 以 看 作 是 针对 SGML 和 HTML 的 弱项 和 不 足 方面 进行 了 “补充 ”或 “修订 ”, 同 
时 对 两 者 的 优势 进行 了 “扩展 "和 “整合 "。W3C 于 1998 年 2 月 提出 了 推荐 标准 XML 1.0 
(http://www. w3c .org/TR/R EC-xml) 。 为 正确 使 用 XML 文档 ，W3C 又 为 XML 标准 
化 定义 了 一 套 应 用 程序 编程 接口 (Application Programming Interface，API) ,同时 ,还 设计 
了 一 套 特 殊 的 基于 事件 的 蔡 代 API。 与 HTML 一 样 ,XML 基于 ISO/IEC 10646 字符 集 标 
准 ( 等 同 于 Unicode 标准 ) 中 定义 的 通用 字符 集 (Universal Character Set,UCS) 。 

XML 继承 了 HTML 的 特性 ,但 并 非 HTML 的 直接 替代 。 

(1) HTML 注重 数据 及 表达 方式 .XML 注重 数据 本 身 内 在 的 语义 。 

(2) HTML 使 用 固定 的 标记 集合 ,而 XML 没有 指定 的 标签 集合 而 允许 用 户 根 据 应 用 
需要 设计 和 选择 相应 的 标签 集 。 

XML 文档 样式 表现 技术 主要 由 数据 驱动 通过 另 一 个 被 称 为 样式 单 的 文档 来 实现 ,其 
中 ,设计 者 会 格式 化 样式 和 决定 何 时 应 用 样式 的 规则 。XML 样式 单 可 用 于 多 个 文档 ,以 产 
生 类 似 的 样式 效果 。 样 式 和 规则 在 显示 时 会 应 用 到 XML 的 数据 上 ,并 可 转换 为 HTML 或 
其 他 数据 格式 。 

3. 语义 识别 与 信息 集成 

XML 最 初 并 不 是 作为 一 项 数据 库 技术 进行 设计 开发 ,其 实际 应 用 驱动 是 对 于 网 络 文 
本 文档 的 管理 。 实 际 上 , 当 网 络 上 两 个 应 用 程序 需要 进行 通信 或 需要 从 多 个 应 用 程序 中 整 
合 信息 时 ,相关 数据 的 语义 识别 和 信息 集成 就 成 为 网 络 数据 管理 的 迫切 需求 。 此 时 ,使 用 
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XML 格式 表示 网 络 文档 文件 ,其 具有 语义 表示 功能 的 标签 就 能 发 挥 重要 的 作用 。 而 依据 
语义 对 存储 数据 进行 实际 查询 正 是 数据 库 管 理 数据 的 核心 课题 ,因此 在 XML 使 用 过 程 中 ， 
必然 会 涉及 许多 的 数据 库 问题 ,从 而 也 就 自然 而 然 地 进入 到 XML 数据 库 技术 的 范畴 。 

1) 语义 识别 

【 例 7-1】 设 有 如 下 文档 信息 :“John, White, XML database，$32,Springer Valag 
Berlin”。 这 样 表示 的 文档 字符 串 对 于 “人 ”而 言 , 其 表达 内 容 也 就 是 语义 信息 是 清晰 而 明确 
的 ,但 将 其 存储 在 计算 机 中 之 后 ,就 只 能 是 一 个 “字符 串 ”, 此 时 人 们 并 不 能 有 效 地 通过 使 用 
计算 机 来 识别 和 提取 出 存储 其 内 的 语义 信息 ,如 “author” 是 “ 谁 ” 和 “publish house” 是 “ 哪 一 
家 ”等 。 但 如 果 对 上 述 文 档 添 加 适当 标记 组 织 成 下 述 XML 文档 形式 。 

<?xml version = "1.0" encoding = " IS0— 8859 - 1" standalone = "yes"?> 

< book year = "2017"> 

< bookname > XML Datebase </bookname > 
<author > 
< firstauthorname > John </firstauthorname > 
< secondauthorname > White </secondauthorname > 
</author > 
<price>$ 32 </price> 
< publish house > Springer Valag Berlin </ publish house > 

</book> 
此 时 ,虽然 计算 机 仍旧 不 能 理解 “author” 和 “publish house” 的 语义 ,但 当 人 们 通过 输入 
“author” 和 “publish house” 到 计算 机 中 进行 查询 时 ,计算 机 就 能 通过 常规 模式 匹配 技术 迅 
速 地 找到 标记 对 < author >…</author > 和 < publish house >…</publish house > 并 通过 适 
当 方式 提取 出 标记 对 其 中 的 内 容 *John, White” 和 “Springer Valag Berlin” 予 以 输出 。 由 此 
可 见 , 使 用 标记 语言 实际 上 提供 了 一 种 使 得 计算 机 对 其 中 的 文档 按照 语法 存储 进行 语义 识 
别 和 信息 提取 的 适当 途径 ,就 如 同 计算 机 对 文档 中 的 “语义 "具有 了 一 定 程度 的 “ 认 知 "能力 
一 样 。 这 样 就 使 得 计算 机 所 能 够 处 理 的 数据 信息 范围 得 到 极 大 扩张 ,“ 似 乎 "提高 了 计算 机 
进行 语义 识别 的 “智能 ”本领 。 

在 数据 库 技术 学 习 中 已 经 知道 ,数据 的 语义 识别 对 于 数据 文件 中 的 “个 别 * 信 息 的 提取 
极其 重要 。 文 件 系 统管 理 数据 只 能 对 存储 的 数据 进行 文件 名 的 识别 ,数据 存储 的 技术 单元 
只 能 是 数据 文件 本 身 ,不 能 深入 到 数据 文件 内 部 ; 其 查询 也 就 只 能 是 文件 的 “整体 ”查询 , 即 
在 众多 文档 中 通过 适当 方法 搜索 到 相关 文档 ,而 对 于 所 需要 的 信息 内 容 只 能 在 该 文档 中 通 
过 遍历 进行 查找 ,不 能 有 效 从 文档 中 直接 提取 所 需 “ 个 别 " 的 信息 。 究 其 原因 ,就 是 由 于 一 般 
数据 文件 没有 相应 的 语义 识别 机 制 , 同 时 也 不 具有 能 够 撒 述 和 表达 语义 的 数据 逻辑 结构 。 
作为 一 种 特殊 的 文档 文件 ,XML 文档 通过 标签 进行 文档 内 容 的 语义 识别 标记 ,同时 具有 
“ 符 套 ”层次 作为 相应 的 逻辑 数据 结构 ,从 而 具有 一 般 文档 文件 所 不 具有 的 语义 识别 功能 ,为 
XML 文档 的 数据 库 管理 提供 了 有 效 途径 。 

2) Web 信息 集成 

一 般 而 言 , Web 数据 管理 的 核心 是 信息 提取 和 数据 集成 。 如 上 所 述 的 “语义 识别 ?就 是 
“信息 提取 ”的 前 提 , 而 “信息 提取 ”就 是 从 诸如 XML 等 文档 据 中 归纳 反映 出 当前 状态 的 结 
构 模 式 ,以 便 在 此 基础 上 对 半 结 构 化 数据 进行 查询 、 计 算 和 优化 ,从 而 得 到 所 需要 的 信息 内 


容 。 进 行 模式 提取 后 的 具有 不 同 来 源 的 Web 信息 彼此 之 间 通 常 呈现 出 异 构 的 情形 ,难以 进 
行 统一 的 管理 操作 ,因此 需要 进行 “数据 集成 ”。 实 际 上 ,如 果 能 将 Web 数据 进行 有 效 集成 ， 
使 得 相应 数据 能 够 遵循 统一 的 标准 要 求 和 规范 格式 ,将 会 大 大 有 利于 Web 数据 的 信息 提 
取 , 同 时 也 有 利于 基于 数据 库 的 Web 数据 管理 。XML 就 是 当前 Web 数据 交换 和 集成 表示 
的 基本 标准 。 

基于 XML 的 Web 数据 集成 系统 通常 遵循 Wiederhole 集成 体系 结构 。Wiederhole 集 
成 体系 分 为 3 层 。 

(1) 数据 包装 层 : 用 于 完成 数据 源 特 定 查 询 接 口 包 装 和 接收 系统 发 出 的 查询 ,并 将 其 
转换 为 数据 源 特 定 查 询 形式 ,执行 后 返还 查询 结果 。 

(2) 数据 集成 层 : 接受 包装 层面 的 数据 输入 和 输出 整个 集成 系统 的 数据 模式 ,完成 数 
据 源 模式 和 全 局 集成 模式 的 相互 映射 。 用 户 基于 全 局 模式 发 出 查询 请 求 , 集 成 层面 将 其 转 
换 为 数据 源 特定 查询 格式 ,发 送 到 各 个 数据 源 分 别 进行 相应 操作 。 当 系统 为 提高 查询 效率 
而 采用 物化 视图 格式 时 ,集成 层面 则 完成 相应 物化 视图 管理 。 

(3) 数据 查询 层 : 用 户 ( 应 用 程序 ) 根 据 全 局 集成 视图 发 出 查询 要 求 ,获取 最 终 查询 
结果 。 

Wiederhole 集成 体系 如 图 7-1 所 示 。 
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7-1 Wiederhole 集成 体系 


7.1.2 XML 文档 组 成 与 良好 XML 文档 


XML 文档 实际 上 是 一 个 连续 的 字符 流 (stream of characters) ,字符 流 中 出 现 的 字符 需要 具 
有 一 定 的 顺序 ,通过 不 同 的 标记 标识 各 个 不 同 的 语义 模块 并 按照 一 定 规范 将 它们 组 织 起 来 。 

1. XML 文档 组 成 

XML 文档 基本 组 成 要 素 有 “XML 文档 声明 ”“ 元 素 与 属性 ”引用 与 注释 ”和 “名 空 
间 ” 等 。 

1) XML 文档 声明 

在 例 7-1 中 ,第 一 行 表示 XML 声明 (XML declaration) ,这 是 对 文档 处 理 环境 和 要 求 的 
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表述 与 解释 ,不 涉及 文档 本 身 内 容 。 

XML 说 明 放 置 在 “<?” 和 “?>” 之 间 , 其 中 包含 以 下 3 个 属性 。 

(1) version 属性 : 说 明 当 前 文档 以 XML. 1. 0 标准 编写 , 告 之 XML 解析 器 文档 使 用 的 
版 本 。 

(2) encoding 属性 : 表示 当前 文档 使 用 字符 集 ISO-8859-1 进行 编码 。 

(3) standalone 属性 : 表明 当前 文档 是 否 引 用 其 他 文档 内 容 ,“yes” 表 示 无 引用 ,文档 


XML 标准 规定 , XML 文档 必须 冠 以 XML 文档 说 明 , 但 version、encoding 和 
standalone 当中 只 有 version 是 必需 的 ,其 余 两 个 属性 是 可 选 的 。 如 果 3 个 属性 都 使 用 , 则 
三 者 顺序 为 version 在 前 ,encoding 其 次 ,standalone 最 后 。 

在 例 7-1 中 ,第 二 行 以 后 部 分 为 文档 实例 , 它 构成 XML 的 主体 。 

2) 元 素 

XML 文档 中 标记 需要 成 对 出 现 , 即 以 开标 签 < 标记 名 > 开始 ,以 闭 标签 </ 标 记名 > 结束 。 
每 组 成 对 的 标记 就 构成 XML 中 的 一 个 元 素 (Element) 。 
元 素 是 XML 文档 中 基本 的 语法 成 分 并 具有 如 下 语法 格式 。 


< Element Name > 元素 内 容 </Element Name > 


这 里 Element Name 是 标记 ,为 用 户 定义 的 元 素 名 称 。< Element Name > 为 开标 签 ， 
</Element Name > 为 闭 标签 ,两 者 之 间 是 元 素 内 容 。 

一 个 XML 文档 需要 有 一 个 根 元 素 (Root Element) ,其 他 元 素 和 文档 内 容 都 包含 在 根 
元 素 起 始 标 记 和 结束 标记 之 间 。 

元 素 可 以 嵌 套 包含 子 元 素 , 嵌 套 层 数 不 受 限制 。 最 外 层 元 素 就 是 根 元 素 。 

在 例 7-1 中 , 根 元素 是 “book”, 子 元 素 分 别 为 “bookname”,“price” 和 “publish house”， 
而 “author” 还 分 别 有 两 个 子 元 素 “firstauthorname” 和 “secondauthorname”。 

3) 属性 

属性 (attribute) 表 明 相 应 元 素 的 某 方面 特征 ,其 中 包括 属性 名 和 属性 值 。 属 性 名 是 一 
个 用 户 自 定义 的 标记 ,属性 值 用 引号 括 起 来 , 单 双 引号 均 可 ,但 必须 配对 一 致 。 属 性 名 和 属性 
值 以 等 号 相连 接 。 在 XML 文档 中 ,属性 都 放置 在 相应 元 素 的 开标 签 中 ,如 例 7-1 中 的 gear。 

在 XML 数据 表示 角度 ,引入 属性 有 以 下 两 方面 的 意义 。 

(1) 一 般 属性 体现 半 结 构 数据 特征 : 属性 将 数据 (元 素 ) 的 取 值 与 元 素 的 标签 联系 起 
来 ,而 元 素 标签 的 组 织 体现 着 数据 文件 的 结构 ,因此 ,属性 也 可 以 看 作 是 结构 模式 与 数据 内 
容 结合 的 一 个 基本 实现 环节 , 即 体现 了 XML 文档 的 半 结 构 数据 特征 。 

(2) ID 属性 实现 XML 和 半 结 构 数 据 对 应 : 对 于 XML 文档 中 的 每 一 个 元 素 , 可 以 赋予 
数值 ID ,用 于 唯一 标识 该 元 素 开 标签 和 闭 标签 所 包含 的 段 。 数 值 ID 就 可 以 看 作 是 该 元 素 
的 基本 属性 值 ,而 从 半 结 构 化 数据 观点 来 看 ,ID 就 为 每 个 结 点 提供 了 唯一 名 称 , 因 此 ,通过 
ID 属性 ,一 个 XML 文档 就 可 以 看 作 一 个 半 结 构 化 数据 (文件 ) 

在 某 些 情况 下 , 子 元 素 可 以 用 属性 表示 ,如 例 7-1 中 的 author 和 price 可 以 改 用 元 素 
“book” 的 属性 表示 ,其 文档 实例 部 分 如 下 。 


< book author = "John and White"Price =" $32"> 





< bookame > XML database </bookame > 

< publish house > Springer Valag Berlin </ publish house > 
</book> 
注意 ,不 是 任何 情况 下 都 可 用 属性 代替 子 元 素 ,因为 属性 与 子 元 素 毕 况 具 有 区 别 。 

在 同一 元 素 中 ,属性 不 能 重 名 ,但 子 元 素 却 可 重 名 ; 属性 在 书写 上 有 先后 之 分 ,但 次 序 
无 关 紧 要 ,但 子 元 素 需 要 按照 其 书写 次 序 排序 。 

一 般 而 言 ,在 元 素 与 属性 都 能 表示 的 场合 ,可 有 下 述 参考 。 

@ 元 素 组 成 部 分 宜 用 子 元 素 表 示 。 

@ 元 素性 质 内 容 宜 用 属性 表示 。 

@ 简短 内 容 宜 用 属性 表示 。 

中 嵌 套 或 较 长 内 容 宜 用 子 元 素 表示 。 

元 素 可 以 没有 内 容 只 有 属性 ,这样 的 元 素 称 为 空 元 素 (empty element) 。 

4) 引用 

在 编写 XML 文档 时 ,经 常 需要 进行 引用 (reference) 本 文档 或 其 他 文档 的 内 容 , 为 了 减 
少 工作 量 , 可 以 将 需要 重复 引用 的 内 容 定 义 为 Entity。Entity 的 语法 格式 如 下 。 

<!Entity 引用 名 "引用 内 容 "> 

<!…> 是 XML 的 定义 语句 格式 ; <! Entity…> 是 一 条 定义 Entity 的 语句 ; 引用 名 
(Entity Name) 是 引用 内 容 的 名 称 。 在 引用 时 ,只 须 在 引用 处 输入 *&. 引用 名 称 ; ” 即 可 。 引 
用 内 容 可 以 包括 HTML .文档 图形 .声音 和 影视 等 任意 情形 ,但 如 果 含有 XML 文档 中 特 
定 内 容 的 符号 ,如 <、>、& 等 ,就 需要 加 以 区 分 。 为 此 ,引用 内 容 可 以 包装 为 : 

<![CDATA [ 引用 内 容 ]]> 

其 中 “<!1[CDATAL” 可 以 看 作 是 开标 记 ,“]]>” 可 以 看 作 是 闭 标记 ,这 两 个 标记 表示 对 
其 中 的 内 容 增加 了 新 的 语法 内 涵 ,不 做 语法 分 析 而 原样 引用 。 如 此 处 理 的 Entity 定义 可 以 
表示 为 : 


<!Entity 引用 名 "<![CDATA[ 引 用 内 容 ]]>"> 





5) 注释 
XML 文档 在 需要 处 添加 上 注释 (comments)。 注 释 的 格式 如 下 。 
如 一 注释 一 -> 


注释 仅 供 人 们 阅读 ,机 器 处 理 时 予以 忽略 。 注 释 可 以 是 任意 内 容 , 但 不 能 带 有 “--” 字 符 
串 。 一 个 带 有 注释 的 XML 文档 如 下 。 


<?xml version = "1.0" encoding = " ISO- 8859—1" standalone = "yes"?> 
<! -- John 的 个 人 资料 -一 > 
<Pperson ID = "F44010219760708453"> 

<name> John </name> 

< sex>male</sex> 

< birthday > 1976 - 07 - 08 </birthday> 

< phone >(020)56892379 </phone > 

< occupation > student </occupation > 


XML 数据 谭 


地 N 四 


高 级 数据 亩 基础 乾 程 





<! 一 The markup is important because it records the structures of the document -一 > 

</person> 

6) 名 空间 

与 HTML 仅 作为 文档 标记 语言 不 同 ,XML 是 一 种 文档 描述 语言 ,各 类 应 用 都 可 定义 
在 本 领域 中 具有 特定 含义 的 专业 标记 ,这 些 标记 相当 于 该 领域 中 的 基本 词汇 表 , 这 在 XML 
中 称 为 该 领域 的 名 空间 (Name Space,NS) 。 由 于 一 个 领域 可 以 有 自身 子 领 域 ,因此 名 空间 
中 还 可 以 有 相应 的 子 名 空间 , 子 名 空间 继承 其 上 层 名 空间 的 标记 ,如 同 C++ 中 子 类 继承 基 类 
一 样 , 当 标 记 含 义 出 现 冲突 时 以 子 名 空间 定义 为 准 。 名 空间 可 以 通过 URI(Uniform 
Resource Identifier, 统 一 资源 标识 符 ) 在 互联 网 上 公布 。 通常 .XML 文档 的 前 部 可 标明 所 
使 用 名 空间 的 网 址 ,用 户 可 根据 需要 在 实际 应 用 中 进行 查阅 。 由 于 URI 在 网 络 中 唯一 ,使 
用 名 空间 机 制 的 XML 中 标记 含义 也 就 唯一 。 

名 空间 一 般 定义 格式 为 : 


< 标记 名 xmlns: 名 空间 名 称 = "URI"> 


其 中 ,“ 标 记名 ”是 用 户 在 文档 中 定义 的 标记 ;“xmlns” 是 W3C 提供 的 最 常用 的 公共 标 
记名 空间 ,其 他 各 个 名 空间 都 是 其 子 名 空间 ,可 以 看 作 子 名 空间 的 固定 前 级 ;“ 名 空间 名 称 ” 
是 用 户 为 名 空间 定义 的 在 文档 中 具有 唯一 性 的 名 称 ;“URI” 是 名 空间 的 唯一 标识 符 。 
“xmlns: 名 空间 名 称 = 二 "URI"” 表 示 该 用 户 定义 的 名 空间 是 xmlns 的 子 名 空间 。 在 不 注 明 
名 空间 情况 下 ,通常 表示 名 空间 默认 为 xmlns。 

【 例 7-2】 在 例 7-1 中 ,如 需要 限定 book 元 素 及 子 元 素 命名 作用 范围 ,可 由 下 述 语句 
实现 。 

<?xml version = "1.0" encoding =" ISO- 8859 - 1" standalone = "yes"?> 

< book year = "2017"xmlns: Sun Yat - Sen University = "http://www. sysu. edu. cn"> 

< SunYat - Sen University book name > XML Datebase </SunYat - Sen University book name > 
< Sun Yat - Sen University author > 
< first author name > John </first author name > 
< second author name > John </ second author name > 
</Sun Yat - Sen University author > 
< Sun Yat ~ Sen University price> $ 32 </ Sun Yat- Sen University price> 
< Sun Yat - Sen University publish house > Springer Valag Berlin </ Sun Yat - Sen University 
publish house > 
</book> 


说 明 : 在 例 7-2 中 ,名 空间 “Sun Yet-Sen University” 绑 定 于 URI“http://www. sysu. 
edu. cn”; bookstore 子 元 素 book 也 被 “Sun Yet-Sen University” 所 限制 。 需 要 指出 ,在 
XML 中 ,如 果子 元 素 没有 使 用 名 空间 , 则 默认 接受 其 父 元 素 名 空间 的 约束 。 

2. 良好 XML 文档 

如 果 一 个 XML 文档 满足 如 下 约束 条 件 , 则 称 其 为 良好 (Well-Formed) 的 XML。 

1) 标记 基本 类 型 

XML 文档 中 使 用 了 以 下 5 种 标记 类 型 。 

(1) 元 素 (element) 标 记 。 

(2) 属性 (attribute) 标 记 。 


(3) 注释 (comment) 标 记 。 

(4) 处 理 指令 (Processing Instruction, PD 标记 。 

(5) 实体 (entity) 标 记 。 

2) 标记 语法 约束 

XML 文档 中 标记 使 用 符合 以 下 语法 约束 。 

(1) 所 有 XML 标记 需要 合理 嵌 套 。 

(2) 所 有 XML 标记 需要 有 一 个 相应 结束 符号 。 

(3) 所 有 XML 标记 需要 区 分 大 小 写 。 

(4) 所 有 XML 标记 的 属性 必须 用 "" 引 起 来 。 

显然 ,bookstore. xml 是 一 个 良好 的 XML 文档 。 

3) 标记 命名 规则 

XML 文档 中 标记 名 称 遵 循 以 下 命名 规则 。 

(1) 名 称 中 可 以 包含 字母 .数字 及 其 他 字母 。 

(2) 名 称 不 能 以 数字 或 ””( 下 画 线 ) 开 头 。 

(3) 名 称 中 不 能 包含 空格 。 

(4) 名 称 不 能 以 字母 xml (或 XML 或 Xml .. ) 开 头 。 
按照 上 述 要 求 , 例 7-1 和 例 7-2 都 是 一 个 良好 的 XML 文档 。 


7.1.3 DTD 与 有 效 XML 文档 


XML 允许 用 户 自行 定义 所 需要 的 标记 。 在 实际 应 用 中 ,对 于 同一 个 文件 内 容 , 不 同 编 
程 人 员 可 能 写 出 不 同 的 XML 文档 。 如 果 无 事先 的 协议 来 约束 ,基于 计算 机 的 XML 文档 自 
动 交 换 和 处 理 很 难 进行 。 为 此 ,需要 设计 出 统一 格式 的 XML 文件 ,这 个 统一 格式 就 是 文档 
类 型 定义 (Document Type Definition,DTD)。 文 档 类 型 定义 通过 一 系列 彼此 相关 的 声明 来 
描述 文档 结构 模式 。 这 些 声 明 包 括 元 素 名 称 元素 出 现 顺序 .元素 数据 类 型 元素 出 现 次 数 、 
可 选择 的 元 素 元 素 的 属性 、 注 释 及 实体 声明 等 。 

如 果 XML 文档 出 现 差错 ,对 应 的 网 页 就 可 能 不 被 显示 ,因此 需要 制定 和 达成 一 定 的 协 
议 , 对 XML 实行 严格 的 语法 解析 。XML 解析 器 就 是 检验 一 个 文档 是 否 符合 XML 语法 规 
则 的 处 理工 具 ,在 解析 过 程 中 ,解析 器 将 会 报告 XML 文档 可 能 会 出 现 的 各 类 错误 。DTD 
是 一 种 保证 XML 文档 格式 正确 的 有 效 方法 ,通过 比较 XML 文档 和 DTD 文件 就 可 检查 文 
档 是 否 符合 规范 ,元 素 和 标记 使 用 是 否 正确 。 

1. DTD 概念 

一 个 DTD 文件 通常 包含 元 素 定义 规则 、 元 素 之 间 关 系 定 义 规则 、 元 素 可 使 用 属性 、 实 
体 和 符号 规则 。DTD 是 一 个 ASCII 的 文本 文件 ,后 级 名 为 . dtd, 如 hello. dtd。 使 用 DTD 
的 意义 在 于 不 同 语义 内 容 的 XML 文档 能 够 实现 结构 和 格式 的 共享 。DTD 和 满足 DTD 要 
求 的 XML 文档 的 关系 类 似 于 数据 模式 和 数据 实例 的 关系 。 

目前 ,已 经 有 数量 众多 的 编写 完备 的 DTD 文件 可 供 利 用 。 针 对 不 同 的 行业 和 应 用 ,这 
些 DTD 文件 已 经 建立 了 通用 的 元 素 和 标签 规则 ,在 应 用 过 程 中 用 户 并 不 需要 自己 重新 创 
建 ,只 要 在 已 有 DTD 基础 上 加 入 所 需 新 标识 即 可 。 实 际 应 用 中 ,用 户 也 可 创建 自己 的 
DTD ,使 得 相应 文档 配合 更 加 完善 适用 。 建 立 用 户 所 需 DTD 通常 一 般 只 要 定义 4 一 5 个 元 
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素 集合 。DTD 具有 如 下 特征 。 

(1) 与 数据 模式 类 似 ,DTD 实际 上 定义 和 限制 XML 文档 中 数据 模式 , 即 在 一 个 元 素 中 
是 否 存在 子 元 素 和 属性 。 

(2) 与 数据 模式 不 同 ,DTD 本质 上 并 不 限制 XML 文档 中 数据 类 型 ,具有 相当 的 灵 
活性 。 

在 上 述 观 点 下 ,DTD 可 看 作 是 定义 一 个 元 素 中 子 元 素 类 型 的 清单 , 即 是 一 种 在 结构 化 
与 半 结 构 之 间 取 得 某 种 平衡 的 结构 模式 。 

2. DTD 语法 

DTD 一 般 定 义 格式 如 下 。 


<!DOCTYPE 根 标记 [各 元 素 定义 ,各 元 素 属性 定义 ,… ]> 


其 中 ,<! DOCTYPE…> 表 示 其 内 容 是 文档 类 型 定义 ,其 后 面 方 括 号 中 为 定义 的 内 容 。 需 要 
注意 ,在 XML 中 ,用 逗号 分 开 的 项 目 有 序 ,而 用 空格 分 开 的 项 目 无 序 ,元 素 定 义 应 当 在 属性 
定义 之 前 ,属性 后 面 还 可 有 其 他 定义 ,如 引用 定义 等 。 所 有 定义 都 放 在 方 括号 内 ,并 冠 以 根 
标记 。 

1) DTD 中 元 素 定义 

在 DTD 中 ,可 以 通过 关键 词 标记 ELEMENT 来 声明 元 素 ,定义 格式 为 ; 

<!ELEMENT 元 素 名 称 元 素 内 容 描 述 > 


按照 其 所 包含 内 容 ,元 素 通常 分 为 下 述 四 类 。 
(1) 空 元 素 类 型 。 定 义 格式 为 : 


<!ELEMENT 元 素 名 称 EMPTY> 


这 种 类 型 在 XML 中 使 用 空 元 素 标 记 , 元 素 中 没有 内 容 。 
(2) ANY 元 素 类 型 。 定 义 格式 为 : 


<!ELEMENT 元 素 名 称 ANY> 


这 种 类 型 在 XML 中 可 以 包含 任意 内 容 , 但 通常 只 将 XML 中 根 元 素 定义 为 此 种 类 型 。 
(3) 父 元 素 类 型 。 定 义 格式 为 : 


<!ELEMENT 元 素 名 称 (| 子 元 素 名 称 1| 子 元 素 名 称 2| … … )> 


此 元 素 类 型 的 特征 是 元 素 中 可 以 包含 子 元 素 。 

(4) 子 元 素 符号 。 在 DTD 中 通过 正则 表达 式 规 定子 元 素 出 现 的 顺序 和 出 现 的 次 数 。 
在 DTD 中 正则 表达 式 中 , 子 元 素 “ 顺 序 ” 和 “次 数 ” 由 下 述 符号 表示 。 

Q@ 子 元 素 顺序 符号 : 分 为 子 元 素 集合 和 子 元 素 序列 两 种 情形 。 

子 元 素 集合 ,特点 是 所 涉及 的 子 元 素 名 称 连 写 : 子 元 素 名 称 1 子 元 素 名 称 2 …… 
子 元 素 名 称 x 。 此 时 不 需要 遵照 任何 顺序 要 求 。 

子 元 素 序列 ,特点 是 所 涉及 子 元 素 名 称 按照 先后 顺序 用 逗号 分 隔 : 子 元 素 名 称 1, 子 元 
素 名称 2，…… , 子 元 素 名 称 2。 此 时 表示 “并 (AND) "语义 ,需要 严格 遵循 顺序 要 求 。 

@ 子 元 素 次 数 符号 : 如 果 同 名 数据 对 象 (如 同名 子 元 素 ) 需 要 出 现 多 次 , 则 可 在 相应 数 
据 对 象 标 记 的 右上 角 或 后 面 添 加 * (表示 0 次 或 多 次 ) ,十 (表示 1 次 或 多 次 ) 或 ?( 表 示 0 次 


或 1 次 ) 三 类 符号 。 
如 果 数 据 对 象 右上 角 或 后 面 无 符号 则 表示 取 且 取 一 次 。 
(5) 混合 元 素 类 型 。 混 合 元 素 类 型 定义 格式 为 : 
<!ELEMENT 元 素 名 称 ( # PCDATA| 子 元 素 名 称 1| 子 元 素 名 称 2| … … )> 


这 种 类 型 的 特征 是 元 素 中 可 以 同时 包含 文本 内 容 和 子 元 素 , 但 其 中 文本 内 容 必 须 是 
井 PCDATA 类 型 , 即 是 可 以 进行 解析 的 字符 文本 ,不 能 在 其 中 拥有 自己 的 子 元 素 。 

2) DTD 中 属性 定义 

在 DTD 中 ,属性 定义 格式 为 : 

<!ATTLIST 所 属 元 素 名 称 {属性 名 称 属性 值 类 型 属性 可 选 性 } > 


其 中 “{. )” 表 示 一 个 元 素 可 以 定义 多 个 属性 。 在 多 个 属性 情形 下 ,通常 是 每 个 属性 定义 
单独 占据 一 行 以 增加 可 读 性 。 

在 DTD 属性 定义 中 ,根据 对 属性 取 值 与 否 或 怎样 取 值 ,可 以 将 属性 类 型 分 为 以 下 4 种 。 

(1) #DEFAULT value: 表示 属性 值 有 默认 值 value。 

(2) #REQUIRED: 表示 属性 值 是 必需 的 , 若 缺 少 属性 值 , 则 取 默 认 值 Cdefault value) ， 
而 默认 值 无 须 在 定义 中 标明 。 

(3) #IMPLIED: 表示 属性 值 是 可 选 的 , 即 可 以 选用 ,也 可 以 不 选用 。 

(4) ##FIXED: 表示 该 属性 值 是 必需 的 , 若 缺 少 属性 值 , 则 取 其 默认 值 ,但 默认 值 必须 
在 定义 中 标明 。 

3) DTD 数据 类 型 

在 XML 中 ,元 素 内 容 和 属性 的 取 值 都 是 文本 形式 ,此 时 需要 考虑 相应 的 数据 类 型 。 在 
DTD 中 ,元 素 内容 和 属性 取 值 都 看 作 是 字符 串 ,字符 串 是 XML 中 最 基本 的 数据 类 型 。 

按照 是 否 需要 解析 即 语法 分 析 ,通常 将 这 些 字符 串 类 型 分 为 PCDATA 类 型 和 CDATA 
类 型 两 种 。 因 此 ,DTD 中 文本 定义 主要 是 对 文本 PCDATA 类 型 和 CDATA 类 型 的 定义 。 

(1) PCDATA。PCDATA(Parsed Character DATA) 这 种 数据 类 型 在 前 面 已 经 多 次 提 
及 ,其 特征 是 需要 通过 解析 器 的 语法 分 析 , 其 中 字符 串 不 能 含有 XML 中 有 特定 意义 的 符 
号 ,或 者 对 这 些 符 号 进行 了 替换 。 

(2) CDATA 类 型 。CDATA(Character DATA) 类 型 中 字符 串 可 能 含有 XML 中 具有 
特定 意义 的 字符 串 , 其 特征 是 经 不 起 语法 分 析 。 因 此 CDATA 类 型 的 数据 不 需要 通过 解析 
器 的 语法 分 析 。 

(3) 其 他 类 型 。 按 照 数 值 取 爹 或 其 他 技术 角度 考虑 ,除了 前 述 的 DEFAULT value、 
REQUIRED、IMPLIED 和 FIXED 之 外 ,DTD 中 还 有 如 下 基本 数据 类 型 。 

Q@ ID : 识别 元 素 的 标识 符 。 类 型 为 ID 类 型 的 属性 提供 了 所 属 元 素 唯 一 的 标识 ,出 现在 
一 个 元 素 中 的 ID 一 定 不 能 出 现在 另 一 个 元 素 中 ,同时 ,一 个 元 素 只 能 有 一 个 属性 具有 ID 
类 型 。 

@ IDREF(CIDREFS) : 属性 值 是 其 他 元 素 或 本 元 素 的 ID。 由 此 可 见 ,类 型 为 IDREF 的 
属性 是 对 另 一 个 元 素 的 引用 ,该 属性 必须 包含 一 个 文档 中 某 个 元 素 的 ID 类 型 属性 中 出 现 过 
的 值 。IDREF 类 型 的 属性 值 可 以 是 多 值 的 ,此 时 ,用 关键 词 IDREFS 标识 ,同时 值 与 值 之 间 
用 空格 分 开 。 
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ID 和 IDREF 类 型 在 面向 对 象 数据 库 和 对 象 关系 数据 库 中 扮演 中 同样 的 引用 机 制 。 

Q@ ENTITY(ENTITIES): 属性 值 是 引用 名 ,可 以 是 多 值 , 值 与 值 之 间 以 空格 分 开 。 

@ 枚 举 类 型 : 在 所 列举 的 属性 值 中 选取 其 一 。 

需要 说 明 的 是 ,在 DTD 中 ,在 表示 元 素 或 属性 数据 取 值 类 型 时 ,通常 需要 将 井 置 于 
PCDATA 或 CDATA 之 前 ,以 避免 与 子 元素 名 或 属性 名 混淆 。 

3. 有 效 XML 文档 

DTD 文件 可 通过 直接 调用 包含 在 XML 文档 中 的 DTD 文件 和 调用 独立 存在 的 DTD 
文件 。 良 好 XML 文档 如 果 符 合 其 相应 存在 的 DTD 规范 要 求 ,就 称 其 为 有 效 的 (valid) 
XML 文档 。 例 7-1 中 XML 文档 bookstore. xml 对 应 的 DTD 文件 如 下 。 

<! ELEMENT book( bookname, author x , price)> 

<! ATTLIST book year # CDATA, REQUIRED> 

<! ELEMENT bookname( # PCDATA)> 

<! ELEMENT author(firstauthorname, secondauthorname)> 

<! ELEMENT firstauthorname( # PCDATA)> 

<! ELEMENT secondauthorname( # PCDATA)> 

<! ELEMENT price( # PCDATA)> 

<! ELEMENT publisher( # PCDATA)> 


7.2 XML Schema 


DTD 作为 用 户 编写 XML 文档 的 结构 标准 是 合适 的 ,但 作为 计算 机 检查 XML 文档 正 
确 性 标准 却 会 勉 为 其 难 , 其 中 主要 问题 如 下 。 
(1) DTD 不 具有 名 空间 机 制 , 难 以 检查 所 使 用 标记 的 合法 性 。 
(2) 数据 类 型 简单 并 且 过 少 ,不 能 适应 较为 复杂 的 情形 。 
(3) DTD 语法 与 XML 文档 本 身 语法 有 较 大 差异 ,不 符合 XML 内 在 的 半 结 构 化 特质 ， 
不 方便 计算 机 进行 统一 处 理 。 
针对 这 种 情况 , W3C 推荐 了 一 个 XML 模式 (XML schema) 标 准 作为 检查 XML 文档 正 
确 性 的 依据 。 XML Schema 从 XML 文档 中 抽象 出 来 ,通常 是 先 有 XML 文档 ,然后 再 有 
XML Schema, 这 种 半 结 构 化 数据 特征 使 得 它 与 传统 数据 模式 有 着 较 大 区 别 。 另 外 ,XML 
Schema 采用 与 XML 文档 相同 的 形式 定义 文档 结构 ,同时 增加 了 对 数据 类 型 的 支持 。 
【 例 7-3】 例 7-1 的 XML Schema 如 下 。 
<?xml version = "1.0" encoding = " ISO- 8859 - 1" standalone = "yes"?> 
< schema xmlns. xsd = "http://www. w3c. org/2001/XMLSchema" 
xmlns. rgt = "http://www. sysu. edu. cn/CIT. XML/2016/book" 
elementFormDefault = "qualified" 
attuibuteFormDefault = "unqualified"> 
< element name = "book"> 
< annotation> 
< documentation > book </documentation> 
</annotation> 


<complexType> 
< sequence> 


< element name = "bookname"type = "rgt:string"/> 
< element name = "author"minOccurs = "0"maxOccurs = "unbounded" > 
< complexType> 
< sequence> 
< element name = "firstauthorname" 
type = "rgt:string"/> 
< elementname = "secondauthorname" 
type = "rgt:string"/> 
</sequence> 
</complexType > 
< element name = "price"type = "rgt:short"/> 
< element name = "publish house"type = "rgt:string"/> 
</element > 
</sequence> 
</complexType > 

</element > 

</schema > 

由 此 可 以 初步 看 出 ,XML Schema 具有 如 下 基本 特征 。 

(1) Schema 是 一 个 XML 文档 。XML Schema 文档 包含 了 标准 的 XML 头 <? xml 
version 一 "1.0"? >, 这 表示 Schema 本 身 就 是 一 个 XML 文档 。 而 任何 Schema 的 根 元 素 
都 必须 是 Schema, 它 有 一 个 或 多 个 说 明 自 己 的 属性 。 在 这 种 情况 下 ,Schema 的 namespace 
定义 属性 (xmlns) 会 定义 名 称 空间 为 xs, 它 将 用 作文 档 中 所 有 元 素 的 根 名 称 空间 。 实 际 上 ， 
人 们 是 使 用 一 套 预 先 规定 的 XML 元 素 和 属性 来 创建 XML Schema, 这些 元 素 和 属性 定义 
了 相应 XML 文档 的 结构 和 内 容 模式 ,由 此 得 到 的 一 套 精巧 规则 指定 了 每 个 Schema 元 素 或 
属性 的 合法 用 途 ,而 这 些 规则 却 是 使 用 XML 来 表示 的 。 如 果 违 反 这 些 规则 解析 器 会 拒绝 
解析 给 定 的 Schema 及 任何 相 联 系 的 文档 。 

(2) 具有 健全 的 命名 空间 机 制 。 一 个 XML Schema 需要 说 明文 档 中 所 使 用 的 名 空间 。 
一 个 Schema 可 以 具有 多 个 名 空间 ,可 在 其 中 选择 一 个 作为 基本 的 默认 名 空间 , 凡 未 说 明 的 
都 应 属于 这 个 名 空间 。 例 如 ,在 XML Schema 中 ,都 需 声 明 下 述 名 空间 (如 声明 ,就 是 以 其 
为 默认 名 空间 ) 。 


xmlns:xsd = http://www.w3.org/2001/XML Schema 


其 中 ,xsd(XML schema definition) 就 是 W3C 公布 的 一 个 XML Schema 的 子 名 空间 ,用 于 
规范 Schema 的 定义 。 只 要 是 属于 这 个 名 空间 的 标记 和 类 型 都 可 置 以 xsd。 

(3) 元 素 由 名 称 和 内 容 模型 确定 。Schema 通过 对 元 素 及 元 素 相 互 之 间 关 系 的 定义 以 
实现 对 整个 文档 性 质 和 内 容 的 定义 ,其 中 ,元 素 定 义 通过 其 名 称 和 内 容 模型 确定 。 这 里 ,名 
称 就 是 该 元 素 名 ,内容 模 型 实际 上 就 是 该 元 素 所 属 的 类 型 。 就 像 在 C++ 中 那样 ,可 根据 需要 
定义 一 个 变量 ,但 必须 说 明 变 量 的 类 型 。 变 量 类 型 可 有 多 种 形式 ,可 以 是 一 个 简单 变量 ,如 
C++ 内 部 指定 的 bool、int、double 和 char 等 简单 类 型 ,也 可 以 是 较 复 杂 的 类 型 ,如 struct 或 
class 类 型 。 

(4) 具有 丰富 的 元 素 类 型 。 元 素 类 型 可 以 理解 为 元 素 的 “ 取 值 ”类 型 ,这 种 取 值 可 以 是 真 
正 的 “数据 ,也 可 以 是 具有 结构 的 子 元 素 。DTD 只 提供 CDATA 、Enumerated、NMTOKEN、 
NMTOKENS 等 10 种 内 置 (built-in) 的 基本 数据 类 型 。 这 些 数 据 类 型 通常 无 法 满足 文档 的 
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可 理解 性 和 数据 交换 的 需要 。XML Schema 则 不 同 , 它 内 置 了 37 种 基本 数据 类 型 ,如 
long ,int\short double 等 常用 的 数据 类 型 ,并 通过 这 些 数 据 类 型 的 派生 机 制 (限制 ,列表 与 
联合 ) 定 义 新 的 数据 类 型 以 实现 对 用 户 自 定义 类 型 的 支持 。 更 为 重要 的 是 ,XML Schema 
还 能 描述 具有 结构 的 子 元 素 类 型 。 具 体 来 说 ,XML Schema 将 元 素 的 类 型 (type) 分 为 简单 
类 型 和 复杂 类 型 两 种 。 简 单 类 型 被 称 为 simpleType。 其 特征 是 不 包含 子 元 素 和 属性 ; 复杂 
类 型 被 称 为 complexType, 其 特征 是 不 仅 可 以 包含 属性 ,而 且 可 以 在 其 中 赃 套 其 他 的 元 素 ， 
或 者 可 以 和 其 他 元 素 中 的 属性 相关 联 。 
在 XML 中 ,定义 元 素 需 要 声明 元 素 的 类 型 ,下 面 分 别 讨论 元 素 的 简单 类 型 和 复杂 类 型 。 


7.2.1 简单 类 型 


简单 类 型 (simpleType) 是 一 组 由 字符 串 表示 的 类 型 ,其 特征 是 不 包含 元 素 , 它 赋 予 
XML Schema 低级 类 型 检查 能 力 。 

简单 类 型 主要 是 在 XML Schema 内 置 (built-in) 数 据 类 型 基础 上 使 用 simpleType 来 进 
行 创建 的 。XML Schema 内 置 数据 类 型 如 表 7-1 所 示 。 


表 7-1 内 置 数据 类 型 





























内 置 数据 类 型 说 明 
string 字符 串 数据 
Boolean 二 元 类 型 的 True 或 False 
date 历法 日 期 ,格式 为 CCYY-MM-DD 
dateTime 历法 日 期 和 时 间 
time 24 小 时 格式 的 时 间 ,可 根据 时 区 调节 
decimal 任意 精度 和 位 数 的 十 进 制 数 
integer 整数 
float 标准 的 32 位 浮 点 数 


基于 内 置 数据 类 型 进行 派生 的 简单 类 型 创建 方式 相当 于 对 象 关系 数据 类 型 中 的 类 型 生 
成 器 。XML Schema 支持 的 简单 类 型 派生 方式 主要 有 限制 类 型 (restriction)、 列 表 类 型 
(list) 和 联合 类 型 (union)3 种 。 其 中 ,限制 是 一 种 常用 的 类 型 派生 技术 ; 限制 是 通过 对 已 经 
存在 的 简单 类 型 的 合法 值 加 上 某 些 限制 条 件 而 产生 新 的 数据 类 型 ,这 也 可 以 看 作 是 将 原 有 
类 型 值 集合 进行 限制 而 得 到 的 一 个 子 集 ,以 此 方式 来 定义 新 的 数据 类 型 。 简 单 类 型 派生 机 


制 如 图 7-2 所 示 。 
内 置 数据 类 型 
Cy TE 联合 派生 机 制 | 


7-2 简单 类 型 派生 机 制 
【 例 7-4】 restriction 方式 的 应 用 实例 如 下 。 

















< simpleType name = 'Sku'> 


< restriction base = "rgt: integer"> 
<minInclusivevalue= "一 10"/> 
< maxExclusivevalue = "10"/> 
</restriction> 
</simpleType > 
说 明 : 限制 派生 通过 restriction 元 素 进行 定义 ,由 内 歇 在 restriction 中 的 特定 元 素 实行 
限制 。 被 限定 的 数据 类 型 称 为 基 类 型 ,通过 restriction 元 素 中 < base > 属性 引用 。 在 本 例 
中 ,说 明 Sku 类 型 实例 应 当 是 遵守 下 属 限定 条 件 “10 一 Sku< 10? 的 integer 类 型 的 数据 。 
【 例 7-5】 list 方式 的 应 用 实例 如 下 。 


< simpleType name = "listOfinteger" > 


< list itemType = " integer" /> 


</simpleType> 

说 明 : 列表 派生 可 以 从 一 个 原子 类 型 得 到 一 个 该 类 型 的 列表 数据 类 型 。 列 表 中 所 有 数 
据 项 都 应 当 是 相同 的 数据 类 型 。 列 表 派 生 类 型 由 list 元 素 定义 。 本 例 表 示 派 生出 来 的 是 一 
系列 使 用 空格 分 离 的 integer 类 型 数据 的 列表 。 

【 例 7-6】 union 方式 的 应 用 实例 如 下 。 

< simpleType name = "DateOrDatetime"> 

< union memberType = "rgt: date rgt: datetime"/> 

</simpleType > 

说 明 : 联合 派生 类 似 于 C 语 言 中 的 联合 (union) 概 念 。 联 合 允 许 在 几 类 数据 中 选择 所 
需要 的 一 种 类 型 ,其 中 可 以 包括 预定 义 类 型 和 用 户 自 定义 数据 类 型 。 联 合 派生 类 型 通过 
union 元 素 定义 。 在 本 例 中 ,表明 当前 类 型 实例 允许 出 现 date 或 datetime 类 型 中 的 两 者 
a 


7.2.2 复杂 类 型 


复杂 类 型 (complexType) 相 对 于 简单 类 型 具有 更 加 强大 的 表述 能 力 。 复 杂 类 型 描述 了 
一 个 确定 元 素 的 内 容 模式 和 属性 列表 ,其 中 ,内 容 模式 是 指 元 素 内 容 的 组 成 结构 ,而 属性 列 
表 是 指 对 元 素 某 些 特性 的 刻画 。XML Schema 通过 complexType 元 素 定义 复杂 类 型 ,既然 
是 元 素 ,就 需要 和 某 个 元 素 类 型 相关 联 以 说 明 某 种 结构 类 型 ,这 种 元 素 内 容 定义 类 型 就 是 元 
素 的 内 容 模式 。 

复杂 类 型 的 内 容 模式 可 以 分 为 空 元 素 ,简单 内 容 、 复 杂 内 容 和 混合 内 容 4 种 情形 。 

(1) 空 元 素 : 元 素 本 身 不 包含 任何 子 元 素 和 文本 数据 。 

(2) 简单 内 容 : 元 素 只 包含 文本 数据 ,不 包含 子 元 素 。 

(3) 复杂 内 容 : 元 素 只 包含 嵌 套 元 素 , 即 包含 子 元 素 。 

(4) 混合 内 容 : 元 素 既 含有 文本 内 容 又 含有 嵌 套 元 素 。 
注意 ,在 上 述 4 种 情况 中 ,元 素 都 可 以 带 有 属性 。 

为 了 适应 复杂 类 型 中 的 各 种 情况 ,在 XML Schema 标准 中 ,还 需要 下 述 一 些 内 置 的 常 
用 内 容 模式 。 

(1) sequence: 在 其 定义 范围 之 内 的 所 有 元 素 都 必须 按 顺序 出 现 , 范 围 由 minOccurs 和 
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maxOccurs 指定 。 
(2) choice: 其 范围 内 有 且 只 有 一 个 元 素 必须 出 现 。 
(3) any: 定义 的 任何 元 素 都 必须 出 现 。 
(4) simpleContent: 这 种 复杂 类 型 只 包含 了 非 嵌 套 元 素 。 可 以 通过 包含 扩展 元 素 的 方 
式 扩 展 先 前 定义 的 简单 类 型 。 
(5) complexContent: 这 种 复杂 类 型 只 能 包含 其 他 元 素 。 可 以 通过 包含 扩展 元 素 的 方 
式 扩展 先前 定义 的 复杂 类 型 。 
(6) attribute: 这 种 复杂 类 型 只 能 包含 命名 属性 。 
上 述 这 些 内 置 的 内 容 模式 可 以 组 成 非常 有 用 的 组 合 器 (Compositer) ,应 用 在 复杂 类 型 
的 复杂 内 容 模型 和 混合 内 容 模型 中 。 这 些 内 容 模式 提供 了 一 种 功能 强大 的 复杂 数据 类 型 定 
义 机 制 ,可 以 实现 包括 结构 描述 在 内 的 复杂 的 数据 类 型 。 
1. 空 元 素 
在 不 少 应 用 情况 下 ,需要 声明 一 个 元 素 不 含有 任何 内 容 , 此 时 元 素 通过 其 属性 相对 于 其 
他 元 素 的 位 置 表达 自身 信息 。 
【 例 7-7】 声明 一 个 表达 联系 人 信息 的 复杂 类 型 contactsType 的 语句 如 下 。 
< comlexTYpe name = "contactsType"> 
< squence> 
< element name = "phone"minOccurs = "0"> 
< complexTYpe > 
< attribute name = "number"type = "rgt:string"/> 
</complexTYpe > 
</element > 
</squence > 
</complexType> 
说 明 : 这 里 ,phone 元 素 声明 中 包含 复杂 类 型 定义 ,而 其 中 只 有 一 个 属性 的 声明 ,是 一 
空 元 素 形式 。 
2. 简单 内 容 
【 例 7-8】 声明 一 个 表达 联系 人 姓名 的 复杂 类 型 fullName 的 语句 如 下 。 


< element name = "fullName"> 
<complexType> 
< simpleContent > 
< extension base = "rgt: string"> 
< attribute name = "language"type = "rgt: language"/> 
</extension > 
</simpleContent > 
</complexType > 
</element > 


说 明 : 用 以 扩展 的 基本 类 型 是 内 建 的 string 数据 类 型 。 但 简单 类 型 并 不 只 限于 预定 义 
类 型 ,还 可 以 引用 用 户 通过 simpleType 元 素 自 定义 的 新 的 简单 类 型 。 

3. 复杂 内 容 

【 例 7-9】 可 以 将 例 7-8 改写 为 如 下 语句 。 


<element name = "phone"min0ccurs = "0"> 
<complexType> 
< complexContent > 
<restriction base = "rgt: anyType"> 
<attribute name = "number"type = "rgt: string"/> 
</restriction > 
</complexContent > 
</complexType> 
</element > 


说 明 : 在 例 7-8 中 ,使 用 了 simpleContent 元 素 表明 元 素 仅 能 包含 简单 内 容 而 没有 吝 套 
元 素 。 在 本 例 中 ,相应 可 以 使 用 complexContent 表明 一 个 复杂 类 型 只 能 包含 谋 套 元 素 而 不 
能 含有 文本 内 容 。 当 使 用 complexType 元 素 声明 phone 元 素 时 ,如 果 没 有 对 该 元 素 不 包含 
谋 套 元 素 进行 声明 , 则 模式 处 理 器 将 自动 认为 它 仅 包含 简单 内 容 。 使 用 complexContent 元 
素 最 常见 方法 是 从 一 个 现 有 类 型 中 派生 一 个 复杂 类 型 。anyType 是 所 有 内 建 模式 类 型 的 根 
类 型 ,表示 一 个 不 受 限制 的 字符 和 标记 。 由 于 complexType 表明 了 phone 元 素 仅 包含 元 素 
内 容 , 这 个 限制 的 作用 是 阻止 该 元 素 包含 任何 字符 数据 和 标记 。 

4. 混合 内 容 

【 例 7-10】 定义 title 的 Schema 语句 如 下 。 


< element name = "a"> 
< complexTYpe> 
< SimpleContent > 
< extension base = "rgt: anyType"> 
< attribute name = "href"type = "rgt: anyURL"/> 
</extension > 
</simpleContent > 
</complexType> 
</element > 
< complexType name = "maxedText" mixed = "true"> 
<choice minOccurs = "0" maxOccurs = "unbounded"> 
< element name = "em"type = "rgt:token"/> 
< element ref = "a"/> 
</choice > 
<attribute name = "lang"type = "rgt: language"/> 
</complexType > 
<element name = "title" type = "rgt:marketedText"/> 


说 明 : 混合 (mixed) 内 容 模式 的 实例 元 素 可 以 在 各 个 子 元 素 之 间 插 入 字符 数据 。 由 
mixed 特性 ,本 例 中 相对 应 的 实例 文档 可 以 表述 为 如 下 语句 。 


<title lang = "en"> 

Being a 

<a href = "http://dmoz. org/Shopping/Pets/Dogs/"> 
Dog 

</a> 
isa 

<em> 
Full ~ Time 
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</em> 
Job 
</title> 


7.2.3 元 素 与 属性 声明 


1. 元 素 声 明 

XML Schema 中 的 元 素 声 明 实际 上 就 是 将 涉及 的 元 素 名 称 与 一 个 相关 的 简单 结构 类 
型 与 复杂 类 型 联系 起 来 。 元 素 声 明 通 常 有 “全 局 元 素 声明 ”和 “局 部 元 素 声明 ”两 种 方式 。 

(1) 全 局 元 素 声明 

全 局 元 素 声 明 就 是 将 元 素 名 称 与 相应 元 素 类 型 (如 内 置 类 型 ) 联 系 起 来 ,其 特征 是 作为 
相应 元 素 的 type 属性 元 素 出 现 。 经 过 全 局 声明 的 元 素 可 以 在 其 他 元 素 声 明 中 进行 引用 。 

例如 ,下 述 的 元 素 声明 将 元 素 名 称 Temporal XML 与 类 型 comment 连接 在 一 起 ,因此 
属于 全 局 元 素 声明 。 对 于 该 实例 文档 中 属于 名 空间 http://www. sysu. edu. cn/cit. 2008/ 
artical 中 的 所 有 Temporal XML 元 素 都 会 起 作用 , 即 它们 数据 类 型 都 是 comment。 

< schema xmlns:xsd = http://www. w3.org/2001/XMLSchema 

xmlns; rgt = "http://www. sysu. edu. cn/cit. 2008/artical"> 
< element name = "Temporal XML" type = "rgt:comment"/> 

</schema > 

由 本 例 可 知 ,全 局 元 素 声 明 在 表现 形式 上 是 元 素 类 型 声明 紧 接 在 元 素 名 称 声 明之 后 , 同 
在 元 素 的 开始 标签 内 。 

(2) 局 部 元 素 声 明 

局 部 元 素 声明 主要 作为 内 容 模式 定义 的 一 个 部 分 出 现 ,如 出 现在 complexType 定义 的 
内 部 ,此 时 ,元 素 类 型 声明 使 用 子 元 素 形式 表示 。 局 部 声明 元 素 只 能 存在 于 它们 自己 所 处 的 
局 部 范围 中 。 

在 下 面 代码 中 ,元 素 开始 标签 中 只 有 元 素 名 称 , 而 元 素 类 型 声明 在 开始 标签 之 后 ,这 种 
情况 称 为 一 个 匿名 类 型 定义 (anonymous type definition)。 由 此 定义 的 comment 类 型 只 能 
在 元 素 Temporal XML 范围 内 使 用 。 

< schema xmlns:xsd = http://www. w3.org/2001/XMLSchema 

xmlns rgt = "http://www. sysu. edu. cn/cit. 2008/artical"> 
< element name = "Temporal XML"> 
< simpleType > 
<restriction base = "rgt: string"> 
< maxlength value = "1024" /> 
</restriction> 
</simpleType> 
</element > 

</schema > 

2. 属性 声明 

属性 声明 实质 上 是 将 涉及 的 属性 名 称 和 一 个 简单 类 型 在 上 下 文 环境 中 联系 在 一 起 。 属 
性 使 用 attribute 元 素 进行 声明 。 如 同 元 素 情 形 , 属 性 有 全 局 元 素 声明 和 局 部 元 素 声明 
Ea 





例如 ,如 果 需 要 为 元 素 Temporal XML 增加 一 个 language 属性 ,其 本 身 作为 一 个 基于 
内 置 类 型 string 的 复杂 类 型 。 为 此 可 通过 complexType、simpleContent 和 extension 3 个 
类 型 元 素 完 成 language 属性 的 全 局 声明 。 
< element name = "remporal XML"> 
< complexType> 
< simpleContent > 
< extension base = "rgt: string"> 
<attribute name = "language"type = "rgt: language"/> 
</extension > 
</simpleContent > 
</complexType> 


</element > 


7.3 XML 数据 模型 


作为 一 种 特殊 的 文档 文件 ,可 以 通过 两 个 不 同 的 视角 对 XML 进行 考查 。 

(1) 将 XML 看 作 纯 文 本 : 即 字符 流 。 例 如 ,在 关系 数据 库 中 存储 XML 时 ,可 以 通过 前 
述 的 大 数据 类 型 将 其 作为 关系 表 中 某 个 属性 的 字符 型 属性 值 进行 处 理 。 这 种 方法 没有 充分 
利用 XML 中 语义 标签 的 基本 功能 。 

(2) 将 XML 看 作 数据 : 也 就 是 将 XML 中 的 标签 作为 语义 识别 依据 ,并 将 标签 之 间 的 
嵌 套 关系 作为 相应 的 逻辑 上 的 数据 结构 ,这 实际 上 就 是 从 数据 库 数据 模型 观点 审视 处 理 , 即 
将 XML 文档 作为 XML 数据 。 但 XML 数据 与 一 般 数 据 库 中 的 数据 还 是 有 很 大 差异 ,主要 
在 于 XML 中 的 “ 实 义 数据 * 和 “元 数据 ”同一 ,以 此 为 基础 ,常常 是 先 有 XML 文档 ,再 从 中 抽 
取出 相应 的 数据 模型 。 这 种 类 型 的 数据 就 是 半 结 构 化 数据 。 


7.3.1 夺 结 构 化 数据 


由 于 Internet 及 相关 技术 的 快速 发 展 , 使 得 对 网 上 信息 的 应 用 需求 迅速 增加 。 通 常 可 
从 网 络 上 得 到 海量 网 络 数据 ,如 何 从 这 些 海 量 数 据 中 对 所 需要 的 信息 部 分 进行 准确 定位 和 
快速 获取 已 成 为 网 络 数据 管理 中 的 迫切 需求 。 现 有 网 络 数据 查询 技术 多 依赖 于 搜索 引擎 ， 
基本 上 是 通过 关键 字 匹 配 进 行 查询 ,查询 结果 是 一 个 由 系统 按照 相关 程度 组 成 的 网 页 信息 
集合 ,用 户 需 要 再 进行 逐一 浏览 和 遍历 查找 ,难以 快速 ,准确 和 有 效 地 获取 查询 结果 。 这 种 
情况 出 现 的 根本 原因 在 于 网 络 数据 大 多 是 一 种 半 结 构 化 的 数据 (semistructured data)。 

1. 概念 和 特征 

传统 数据 模型 (概念 模型 和 逻辑 模型 ) 通 常 具有 两 个 核心 概念 : 结构 模式 和 数据 。 例 
如 ,E-R 模型 中 的 联系 和 实体 集 、 关 系 模型 中 的 关系 模式 和 关系 实例 及 面向 对 象 模型 中 的 类 
和 对 象 实例 集 等 。 在 传统 模型 中 ,结构 和 数据 概念 分 别 讨论 ,其 意义 在 于 较 高 层面 上 的 结构 
模式 和 较 低 层面 上 的 实际 数据 相互 分 离 ,使 之 具有 某 种 意义 下 的 相对 独立 性 。 大 家 已 经 知 
道 , 这 种 适当 意义 下 的 独立 性 对 于 简化 系统 结构 和 提升 系统 效率 具有 重要 的 作用 。 具 有 此 
种 特征 的 数据 模型 通常 称 为 结构 化 数据 模型 。 如 果 将 结构 模式 和 数据 这 两 个 核心 概念 融合 
在 一 起 ,不 再 进行 严格 区 分 , 则 就 需要 考虑 所 谓 半 结构 化 数据 模型 。 
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相对 于 结构 化 数据 , 半 结 构 化 数据 具有 下 述 特点 。 

(1) 自 描述 性 。 半 结构 化 数据 自身 就 可 描述 其 具有 的 结构 模式 ,而 且 通 常 是 先 有 数据 
再 考虑 抽取 相应 的 结构 模式 。 

(2) 不 精确 性 。 半 结构 化 数据 结构 模式 可 以 是 不 完全 和 不 精确 的 ,还 会 随时 间 及 数据 
库 的 变动 而 变化 。 

(3) 不 规则 性 。 半 结构 化 数据 模式 没有 规则 的 结构 ,不易 进行 统一 规范 的 描述 。 

(4) 非 强 制 性 。 半 结构 化 数据 结构 模式 具有 较 大 的 灵活 性 ,并 不 需要 对 所 有 数据 都 强 
制 执行 相应 的 结构 模式 ,也 就 是 说 ,数据 可 以 没有 相应 的 结构 模式 。 

(5) 模式 复杂 性 。 融 合 在 数据 中 的 结构 模式 可 以 非常 复杂 ,相应 结构 模式 描述 规模 可 
以 大 大 超过 数据 本 身 的 描述 。 

2. 半 结 构 化 数据 模型 

半 结 构 化 数据 特征 在 于 结构 和 数据 的 相互 融合 ,数学 中 图 形 结构 可 以 用 于 描述 这 种 特 
性 。Stanford University 的 TSMMIS 项 目 组 提出 一 种 基于 图 模型 的 半 结 构 化 数据 模型 
(Object-Exchange Model,OEM) ,并 将 其 应 用 于 lore 半 结 构 化 数据 库 管 理 系统 。 

1) OEM 基本 概念 

OEM 基本 处 理 单元 是 对 象 ,每 个 对 象 可 以 看 作 如 下 四 元 组 。 


(对 象 标签 , 对象 类 型 , 对 象 取 值 , 对 象 标识 ) 


对 象 的 上 述 4 个 要 素 也 称 为 对 象 的 域 。 

(1) 对 象 标签 : 描述 对 象 名 称 的 字符 串 。 

(2) 对 象 类 型 : 描述 对 象 取 值 的 数据 类 型 ,根据 所 取 的 数据 类 型 不 同 可 将 对 象 分 为 原 
子 对 象 和 复合 对 象 两 种 类 型 。 

(3) 对 象 取 值 : 对 于 原子 对 象 而 言 , 可 以 是 基本 数据 类 型 及 多 媒体 数据 文件 等 不 可 再 
划分 的 原子 数据 类 型 ; 对 于 复合 对 象 则 是 二 元 组 (标记 , 子 对 象 标识 ) 的 一 个 集合 ,其 中 标记 
描述 对 象 与 其 子 对 象 之 间 的 关联 。 

(4) 对 象 标识 : 每 个 对 象 所 具有 的 唯一 标识 。 

2) 具 根 有 向 图 

基于 OEM 的 半 结 构 化 数据 模型 可 看 作 一 个 简单 . 自 描述 和 嵌 套 的 对 象 模型 ,其 数据 可 
由 一 个 具 根 有 向 图 表示 , 即 看 作 一 个 由 某 些 弧 段 进行 连接 的 结 点 Cnode) 的 集合 ,其 中 包括 如 
下 要 素 。 

(1) 叶 结 点 。 叶 结 点 与 适当 的 数据 值 相 关联 ,表示 结 点 和 某 个 数据 取 值 之 间 的 关联 ,其 
中 数据 取 值 的 数据 类 型 为 原子 类 型 (如 数值 型 或 字符 串 型 等 ) 。 

(2) 内 部 结 点 。 内 部 结 点 通过 其 发 出 的 弧 段 与 其 他 结 点 关联 ,内 部 结 点 发 出 的 每 条 弧 
段 都 有 一 个 标签 (lable) ,用 于 指明 弧 段 开始 处 结 点 与 终止 处 结 点 的 相互 联系 。 

(3) 根 结 点 。 根 结 点 作为 弧 段 出 发 点 并 表示 整个 数据 文件 ,同时 与 集合 中 每 个 结 点 都 
有 路 径 相 连 , 根 结 点 唯一 。 

有 向 弧 段 <w,v> 可 看 作 两 个 结 点 wu.v 之 间 的 关联 。 在 上 述 有 向 图 中 可 以 进行 如 下 语 

(1) 如 果 结 点 x 表示 一 个 对 象 , 结 点 表示 x 的 属性 , 则 弧 段 <u,v> 表 示 对 象 u 具有 属 





性 v, 相 应 弧 段 标签 可 表示 相应 属性 或 属性 域名 称 。 

(2) 如 果 结 点 uw 和 w 都 是 对 象 , 则 弧 段 <u,v> 表 示 由 4 到 wv 所 具有 的 一 种 联系 , 弧 段 标 
签 可 表示 给 联系 的 名 称 。 

(3) 如 果 结 点 表示 一 个 对 象 (属性 ) , 结 点 v 表示 一 个 具体 数据 ,< u,v > 表示 对 象 ( 属 
性 )u 取 值 为 v。 

由 OEM 可 知 , 半 结 构 化 数据 是 自 描述 的 (self-describing) ,结构 模式 与 数据 结合 一 体 ， 
弧 段 标签 说 明 末 端 结 点 在 始 端 结 点 中 的 角色 ,这 实际 上 就 是 将 模式 结构 与 实际 数据 通过 同 
一 表现 形式 进行 整合 描述 。 在 结构 化 数据 中 ,结构 模式 固定 并 与 数据 分 离 ,数据 角色 信息 隐 
含 在 结构 模式 中 。 关 系数 据 等 结构 化 数据 优势 在 于 其 较 高 的 操作 效率 , 半 结 构 化 数据 优势 
在 于 其 所 具有 的 灵活 性 。 由 于 灵活 性 : 半 结 构 化 数据 适合 描述 多 个 不 同 结构 模式 但 具有 模 
型 相似 性 的 数据 , 即 能 够 实现 数据 集成 ; 由 于 模式 与 数据 的 结合 性 , 半 结 构 化 数据 还 适合 于 
文档 性 数据 的 描述 ,如 Web 网 络 上 的 共享 信息 。 


7.3.2 数据 关系 与 数据 结构 


从 XML 本 身 来 源 考虑 ,一 个 规范 化 的 XML 文档 就 是 一 个 基本 的 XML 数据 ,因此 ， 
XML 文档 就 是 XML 数据 的 基本 形式 ; 从 XML 自身 具有 的 谤 套 结构 考虑 ,又 可 以 将 XML 
文件 看 作 一 棵 具有 适当 约束 的 树 形 结构 ,因此 XML 树 就 构成 了 XM 的 基本 数据 模式 。 实 
际 上 ,作为 一 种 半 结 构 化 数据 的 表现 形式 ,XML 数据 模型 可 以 看 作 是 OEM 数据 模型 的 具 
体 实 现 。 

1. XML 数据 结构 关系 

由 XML 数据 本 身 组 成 考虑 ,其 包含 的 信息 可 分 为 内 容 信 息 和 结构 信息 两 个 方面 。 前 
者 主要 体现 在 元 素 和 属性 的 文本 取 值 ,后 者 主要 体现 在 元 素 之 间 的 嵌 套 关系 .引用 关系 和 结 
点 顺序 关系 。 

1) 嵌 套 关系 

按照 数据 管理 观点 ,反映 XML 数据 模式 信息 之 间 的 结构 关联 最 为 重要 ,只 要 理解 和 掌 
握 了 元 素 之 间 的 结构 关系 , 才 可 能 进行 XML 数据 的 有 效 查询 。 这 种 基于 嵌 套 关系 的 结构 
关联 通常 表现 为 下 述 两 种 情况 。 

(1) 包含 关系 : 如 果 标 记 单 元 4 所 管理 的 所 有 数据 片段 都 是 标记 单元 v 所 管理 数据 片 
段 的 组 成 部 分 , 则 称 标记 单元 v 包含 单元 x。 在 XML 树 形 结构 中 就 表现 为 v 和 w 之 间 的 祖 
先 /子孙 关联 。 

(2) 邻近 关系 : 表明 同一 标记 单元 所 管理 的 文本 区 域内 字符 串 之 间 的 距离 ,此 时 ,在 
XML 树 形 结构 中 表现 为 文本 结 点 之 间 的 兄弟 关系 。 

2) 引用 关系 

从 应 用 角度 考虑 ,数据 对 象 之 间 的 相互 引用 具有 重要 的 意义 。 通 过 引用 ,可 以 大 大 减少 
数据 的 重复 存储 ,同时 也 能 更 加 清晰 地 表达 数据 对 象 之 间 的 相互 关系 。 在 XML 数据 中 , 通 
常 由 IDREF 属性 或 XLink 语法 实现 元 素 之 间 的 相互 引用 。 

3) 顺序 关系 

给 定 了 一 个 XML 数据 ,实际 上 就 隐 含 了 其 中 标记 结 点 之 间 的 一 种 顺序 ,通常 将 其 称 为 
XML 顺序 。XML 顺序 概念 在 数据 查询 (数据 索引 ) 中 发 挥 着 重要 作用 ,这 是 因为 标记 结 点 
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相互 之 间 顺 序 结构 是 设计 各 种 查询 算法 的 基础 ,同时 查询 结果 通常 是 被 查询 XML 数据 的 
一 个 片段 ,其 中 标记 结 点 顺序 应 当 与 原 有 顺序 一 致 

一 般 来 讲 ,XML 可 以 看 作 是 一 种 半 结 构 化 数据 的 描述 语言 。 事 实 上 ,如 果 对 于 文档 中 
的 标签 二 元 组 < E1 > </E1 > 创建 一 个 结 点 mn ,而 对 其 中 紧 接 内 套 的 下 层 标签 二 元 组 < E2 > 
</E2 > 创建 结 点 ns 后 ,引入 一 条 连接 和 zz 的 弧 段 ,由 此 就 得 到 一 个 从 XML 文档 集合 到 
半 结 构 化 数据 集合 的 映射 , 即 一 个 XML 文档 对 应 着 一 个 半 结 构 化 数据 。 为 了 将 这 种 思想 
规范 化 和 标准 化 ,2003 年 ,W3CCWorld Wide Web Consortium) 为 XML 数据 模型 发 布 了 工 
作 草 案 XQuery1.0 和 XPath2. 0 Data Modle, 其 中 提出 了 基于 XQuery 的 XML 查询 数据 模 
型 (XML query data model) 概念 ,由 于 这 种 模型 主要 着 眼 于 数据 的 查询 处 理 ,可 看 作 是 
XML 数据 模型 的 处 理 形式 , 它 实 际 上 是 一 种 半 结 构 化 数据 的 有 向 图 形 结构 。 

2. XML 数据 有 向 图 

XML 有 向 图 模型 G 定义 为 五 元 组 : G=(VG,EG, >G,chl,lab,val, Vr) 

(1) Vr: G 中 根 结 点 ,对 应 于 XML 文档 中 的 根 结 点 。 

(2) VG: G 中 除了 根 结 点 外 所 有 数据 结 点 集合 ,其 中 结 点 v 有 元 素 ( 属 性 - 值 ) 结 点 和 文 
本 结 点 (元 素 的 文本 内 容 ) 两 种 类 型 。 

这 两 类 结 点 都 具有 结 点 编码 (v-nodecodeld) 和 结 点 标签 (v-lable) 两 个 基本 属性 。 

(3) EG: 为 G 中 所 有 边 的 集合 ,其 中 包含 两 种 不 同类 型 的 边 。 

@ 引用 边 : 表示 元 素 间 引用 关系 的 引用 边 (reference edge) ,通过 ID/IDREF 属性 或 
XLink 语法 [[DMO01] 实 现 。 

@) 树 边 : 表示 元 素 间 父子 关系 和 元 素 -属性 关系 的 树 边 (tree edge) 。 

(4) 之 G: G 中 所 有 标签 集合 。 在 G 中 ,如 果 在 结 点 的 连 线 上 出 现 边 标记 , 则 该 标记 就 
是 其 下 端 结 点 (属性 结 点 或 文本 结 点 ) 的 元 素 名 称 。 分 别 以 下 表示 元 素 名 称 集合 ,以 S 可 解 
析 的 字符 串 即 PCDATA 的 指 代 集合 ,以 A 表示 属性 名 称 集合 。 

(5) G 中 chl\lab 和 val 分 别 表示 下 述 3 个 函数 。 

@ chl 函数 : 子 结 点 函数 ,用 于 计算 子 结 点 ,如 给 定 一 个 结 点 n,chl(n) 表 示 n 的 所 有 子 
结 点 集合 。 

@) lab 函数 : 由 VG 到 5G 上 的 映射 函数 , 即 对 于 每 个 类 型 n,lab(n) 表 示 为 n 赋予 的 一 
个 标签 ; 元 素 类 型 标签 为 该 元 素 名 称 ,属性 结 点 为 该 属性 名 称 , # PCDATA 类 型 标签 为 S 
中 的 元 素 。 

@ val 函数 : 类 型 值 函数 , 即 对 于 元 素 类 型 ,val 返回 其 ID 值 ; 对 于 属性 结 点 ,val 返回 
结 点 的 属性 值 ; 对 于 文本 结 点 ,val 返回 结 点 的 字符 串 值 。 

一 个 电影 XML 数据 的 有 向 图 数据 模型 实例 如 图 7-3 所 示 ,其 中 实 线 代表 树 边 ,虚线 代 
表 引 用 边 , 结 点 按照 深度 优先 遍历 编号 。 

3. XML 数据 有 向 树 

还 可 以 将 XML 文档 表示 为 一 棵 带 有 标签 有 向 树 : T=(VT,ET,TRoot, 之 ) 

(1) VT: 表示 工 中 所 有 结 点 的 集合 。 

(2) ET: 表示 工 中 所 有 边 的 集合 。 

(3) TRoot: 为 工 的 根 结 点 。 

(4) 汤 : 所 有 结 点 所 带 标签 的 集合 。 





ititle title actor title title 


7-3 一 个 电影 XML 数据 的 有 向 图 数据 模型 实例 

由 此 可 知 ,XML 数据 有 向 树 模 型 是 不 考虑 引用 边 的 XML 数据 有 向 图 模型 , 即 XML 数 
据 有 向 图 模型 的 简化 形式 。 
注意 ,XML 数据 中 可 能 存在 实体 ,因而 会 在 同一 个 文档 中 出 现 对 相应 实体 的 引用 , 通 
常 需要 将 XML 数据 建 模 为 有 向 图 。 但 从 理论 上 来 讲 ,通过 将 被 引用 结 点 进行 “重复 ”设置 
就 可 以 将 有 向 图 转换 为 相应 的 有 向 树 形 结构 。 为 了 表述 简便 和 突出 主线 ,本 章 以 下 主要 考 


虑 的 是 XML 的 有 向 树 模式 ,其实 ,作为 图 的 特殊 形式 ,研究 树 的 情形 也 是 研究 图 情形 的 重 
要 基础 。 


一 个 出 版 物 XML 的 树 模 型 的 实例 如 图 7-4 所 示 。 









year=' 2007" 





editorID=" 005" 





title 


price\author title 





DBS 30.5 Tid='03y [Tid='02' XML 34.5 





Tid='09' OS 





name 


Jhon Black mary bush 


图 7-4 XML 有 向 树 数据 模型 实例 
4. 结 点 路 径 和 标签 路 径 


在 具有 嵌 套 结构 的 层次 化 数据 模式 中 ,数据 元 素 的 路 径 是 实施 相应 数据 查询 与 处 理 的 “| 第 
基本 概念 。 对 于 基于 树 形 结构 的 XML 数据 查询 而 言 ,也 需要 引入 结 点 路 径 和 标签 路 径 概 2 
章 
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念 。 设 T 为 给 定 的 一 个 XML 有 向 树 数据 模式 。 

(1) 结 点 路 径 : 一 个 形 如 wm …un 的 数据 结 点 序列 称 为 一 条 结 点 路 径 (Node Path) 并 
记 为 Pu ,其 中 (wi_1,v) EET(0im)。 从 工 的 根 结 点 root 开始 到 叶 结 点 结束 的 结 点 路 
径 被 称 为 工 的 完全 结 点 路 径 , 简 称 工 的 完全 路 径 CComplete Path) 。 

(2) 标签 路 径 : 一 串 以 *“/” 相 隔 的 连续 标签 组 成 标签 序列 /1 /…/A 的 表达 式 称 为 一 
条 标签 路 径 (Label Path) , 且 记 作 P,, 其 中 上 >) (0 过 i 过 有 )。 从 荆 中 某 一 结 点 wv 开始 向 
根 结 点 方向 伸展 的 长 度 为 & 的 标签 路 径 被 称 为 v 在 工 中 的 人 阶 输入 标签 路 径 。 

对 于 任意 两 条 结 点 (标签 ) 路 径 P, 和 P, , 若 Pi 是 P, 的 一 部 分 , 则 称 P, 是 P 的 子路 
径 , 记 作 PICP:。 

对 于 任意 标签 路 径 已 , 若 结 点 v 在 工 中 的 某 一 & 阶 输入 标签 路 径 等 于 尸 , 则 称 v 是 书 
的 目标 数据 结 点 (Target Data Node)。PP 的 所 有 目标 数据 结 点 组 成 的 集合 被 称 为 P 的 目标 
数据 结 点 集 , 即 P 的 查询 结果 。 若 已 的 目标 数据 结 点 集 不 为 空 , 则 称 P 存在 于 工 中 。 

对 于 & 阶 标签 路 径 2u/1 7V/…/A 和 结 点 路 径 wom …w ,如果 (k= 二 mm) A (label(wi) 二 4;)， 
则 称 结 点 路 径 P 和 标签 路 径 L 相互 匹配 ,其 中 ,label(vw ) 表 示 结 点 v; 的 标签 。 

需要 注意 ,通常 情况 下 一 个 标签 路 径 可 以 对 应 多 条 结 点 路 径 , 这 也 为 通过 标签 路 径 索 引 
结 点 路 径 提 供 了 可 能 。 

利用 分 隔 符 “/” 二 分 符 “|”、 可 选 符 “?” 和 循环 符 “* ”可 定义 基本 正则 路 径 表 达 式 R 
(basic regular path expression) 。 若 R 中 只 允许 出 现 标 签 和 分 隔 符 “/”, 则 R 被 称 为 简单 路 
径 表达 式 (simple path expression) ,简称 简单 路 径 。 简 单 路 径 等 价 于 标签 路 径 。 


7.4 XML 数据 查询 


数据 查询 是 任何 数据 管理 系统 的 关键 性 操作 。 由 于 XML 文档 可 以 建 模 为 有 向 树 或 具 
根 有 向 图 的 数据 模式 ,可 以 依据 对 于 树 或 图 的 遍历 方式 实现 * 遍 历 查询 ”。 同 时 由 于 一 般 树 
和 图 的 性 质 和 XML 数据 树 ( 图 ) 的 自身 特性 ,还 能 够 实现 * 非 遍历 查询 ,这 就 是 XML 数据 
索引 。 需 要 注意 的 是 ,XML 数据 索引 实际 上 还 是 一 种 基于 查询 的 数据 存储 结构 。 


7.4.1 遍历 查询 


作为 一 种 树 形 或 图 形 结构 ,实现 XML 数据 查询 的 技术 基础 是 路 径 表达 式 。 

1. 路 径 查 询 表达 式 

XML 数据 基本 形式 是 XML 文档 ; XML 数据 模式 是 按照 元 素 之 间 的 相互 关系 建立 的 
树 形 结构 ; XML 查询 的 基础 是 基于 XPath 的 查询 表达 式 ,而 这 种 查询 表达 式 的 基本 构件 就 
是 路 径 表 达 式 。XML 查询 过 程 中 使 用 的 路 径 表达 式 通常 可 分 为 下 述 几 种 情况 。 

(1) 根据 复杂 程度 ,分 为 线性 路 径 表 达 式 和 分 枝 路 径 表 达 式 。 

(2) 根据 路 径 匹 配 的 始点 ,分 为 绝对 路 径 表达 式 和 相对 路 径 表 达 式 。 

(3) 根据 通配符 出 现 与 否 ,分 为 简单 路 径 表 达 式 和 复杂 路 径 表 达 式 。 

基于 XPath 路 径 表 达 式 主要 描述 如 下 3 种 类 型 的 约束 条 件 。 

Q@ 结构 约束 条 件 : 主要 是 表达 式 中 出 现 的 元 素 之 间 的 包含 关系 和 文档 位 置 关系 。 例 
如 ,一 个 基于 XPath 表达 式 a//b[c/text() 二 'databases"] 就 表示 了 结 点 a 和 b 之 间 就 存在 着 








祖先 /子孙 的 包含 关系 。 

@ 标签 约束 条 件 : 结 点 的 标签 名 称 限 制 。 在 上 述 查 询 表达 式 中 ,出 现 的 3 个 元 素 标签 
名 称 分 别 为 ab 和 c。 

@ 文本 约束 条 件 : 元 素 本 身 及 属性 的 文本 取 值 。 在 前 述 表达 式 中 ,元 素 c 的 取 值 限制 
为 'databases'。 

一 种 有 效 的 XML 数据 查询 技术 应 当 对 相应 基于 XPath 查询 表达 式 中 的 上 述 3 种 约束 
进行 快速 甄别 定位 。 上 述 3 种 约束 中 ,“ 标 签约 束 ” 和 “文本 约束 ”都 可 以 看 作 是 “语义 ”约束 ， 
通过 使 用 常规 的 谓词 选择 或 语义 索引 完成 相应 查询 ; 结构 约束 来 源 于 XML 中 元 素 自身 的 
嵌 套 结构 特征 ,不易 使 用 常规 方式 进行 处 理 , 由 此 成 为 XML 查询 研究 的 主体 技术 。 

2. DOM 和 SAX 

XML 查询 技术 本 质 上 就 是 对 XPath 查询 表达 式 的 有 效 响应 。 文 档 对 象 模型 
(Document Object Model,DOM) 和 XML 简易 APICSimple API for XML,SAX) 是 XML 
数据 处 理 过 程 中 的 两 种 接口 规范 。 借 助 于 DOM 和 SAX 可 以 实现 基于 XPath 表达 式 的 
XML 数据 查询 。 下 面 通过 一 个 简单 路 径 处 理 表明 DOM 和 SAX 基于 深度 优先 的 XPath 查 
询 过 程 。 

输入 : XML 文档 ,简单 路 径 表 达 式 查询 语句 : Q= /a/b/c/d。 

输出 : XML 中 满足 Q 的 结 点 。 

基本 操作 如 下 。 

(1) 先进 行 深度 遍历 XML 顺序 得 到 的 结 点 集合 ,再 对 该 集合 中 结 点 判断 其 标签 路 径 是 
否 符合 查询 模式 。 

(2) 如 果 得 到 布尔 值 为 True, 则 输出 该 结 点 ,同时 跳 过 该 结 点 所 辖区 域 。 

由 于 复杂 查询 可 以 分 解 为 简单 查询 表达 式 , 因 此 上 述 简 单 表 达 式 的 操作 方式 也 是 复杂 
查询 的 基本 操作 方式 。 


7.4.2 查询 语言 XPath 


XPath 是 W3C 定义 的 标准 并 予以 正式 推荐 的 XML 查询 语言 ,设计 主旨 是 为 了 在 
XML1.0 或 XML1. 1 文档 结 点 树 中 定位 结 点 。XPath 最 初 作为 对 XSLT 和 XPointer 语言 
的 补充 ,但 现 已 成 为 广 为 流 行 的 独立 语言 ,其 优势 在 于 一 个 XPath 表达 式 可 用 于 替代 多 行 
DOM API 代码 。 

1. 结 点 与 路 径 表达 式 

XPath 具有 7 种 结 点 类 型 : 元 素 、. 属 性 文本、 名 空间 .处理 指 令 .注释 及 文档 ( 根 ) 结 点 。 
在 XPath 中 ,一 个 XML 文档 是 被 作为 有 结 点 组 成 的 树 形 数据 结构 ,而 文档 结 点 作为 相应 的 
根 结 点 。 

【 例 7-11】 设 有 记 为 文件 名 bookstore2. xml 的 如 下 XML 数据 。 


01. <?xml version= "1.0" encoding = "IS0— 8859—1"?> 
02. <bookstore> 





03. <book> 

04. <title lang = "eng"> Introduction of XPath </title> 
05. <author > A. Raul </author > 

06. < year > 2016 </year > 
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Wy <price>$ 30.50 </price> 

08. </book > 

09. < book> 

10. <title lang = "eng"> Principal on XQuery </title> 
11, <author >J. White </author > 

12, < year >2017 </year > 

3 <price>$ 26.00</price> 

14. </book > 


15. </bookstore> 


XPath 使 用 路 径 表 达 式 来 选取 XML 文档 中 的 结 点 或 结 点 集 。 结 点 是 通过 沿 着 路 径 
(Path) 或 步 (Steps) 来 选取 的 。 

(1) 绝对 路 径 : 如 果 “/” 处 在 XPath 表达 式 开头 则 表示 文档 根 元 素 ( 表 达 式 中 间作 为 分 
隔 符 用 以 分 割 每 一 个 步 进 表达 式 ) ,如 /messages/message/subject 是 一 种 绝对 路 径 表示 法 ， 
它 表 明 是 从 文档 根 开始 查找 结 点 。 

(2) 相对 路 径 : 假设 当前 结 点 是 book 结 点 , 则 路 径 表 达 式 book/price 中 “book” 前 没有 
出 现 *“/”, 这 种 表示 法 表明 从 当前 结 点 开始 查找 并 称 为 相对 路 径 。 

XPath 中 查找 基于 遍历 方法 如 下 。 

在 绝对 路 径 情 形 : 只 有 一 种 遍历 途径 , 即 由 根 结 点 沿路 径 * 向 下 ”行进 直到 目标 结 点 。 

在 相对 路 径 情 形 : 由 “当前 结 点 "开始 ,有 “上 下 左右 ”多 个 方向 可 供 选 择 , 此 时 就 需要 考 
察 “ 表 达 式 上 下 文 ”。 

表达 式 中 的 上 下 文 (context) : 表示 一 种 环境 ,以 明确 当前 XPath 路 径 表 达 式 处 在 什么 
样 的 环境 下 执行 。 如 前 所 述 ,在 XPath 中 ,同一 路 径 表 达 式 是 处 在 根 结 点 操作 环境 和 处 在 
对 某 一 特定 结 点 操作 的 环境 下 执行 所 获得 的 结果 可 能 完全 不 同 ,此 时 基于 路 径 表达 式 的 计 
算 就 取决 于 它 所 处 的 上 下 文 。 实 际 上 ,“ 上 下 文 ” 可 以 看 作 是 其 他 结 点 关于 “当前 结 点 ”的 结 
构 关系 描述 ,这 种 关系 主要 有 下 述 几 种 情况 。 

(1) 当前 结 点 (./): 如 . /book 表示 选择 当前 结 点 下 的 book 结 点 集合 ,也 等 同 于 通常 的 
“特定 元 素 ”, 如 book。 

(2) 父 结 点 (../): 如 .. /book 表示 选择 当前 结 点 父 结 点 下 的 book 结 点 集合 。 

(3) 根 元 素 (/) : 如 /bookstore 表示 选择 文档 的 根 结 点 bookstore 结 点 集合 。 

(4) 根 结 点 (/ x* ): 这 里 * 代表 所 有 根 结 点 ,但 根 结 点 只 有 一 个 ,所 以 只 表示 根 结 点 。/* 
的 返回 结果 和 /bookstore 返回 的 结果 一 样 都 是 由 一 个 bookstore 结 点 组 成 的 单元 素 集合 。 

(5) 递归 下 降 (//) : 表示 由 匹配 选择 当前 结 点 选择 文档 中 的 结 点 ,而 不 考虑 它们 的 位 
置 。 例 如 ,路 径 表 达 式 //book 选取 所 有 book 子 元 素 , 而 不 管 它们 在 文档 中 的 位 置 。 又 如 ， 
路 径 表 达 式 bookstore//book 选择 属于 bookstore 元 素 的 后 代 的 所 有 book 元 素 , 而 不 管 它 
们 位 于 bookstore 之 下 的 什么 位 置 。 

(6) 选取 属性 @: 如 路 径 表 达 式 //@lang 选取 名 为 lang 的 所 有 属性 。 

2. 路 径 表 达 式 基本 类 型 

为 了 提高 查询 效率 .XPath 引入 了 各 类 路 径 表达 式 。 

1) 基于 谓语 路 径 表 达 式 

谓语 (predicates) 用 来 查找 某 个 特定 的 结 点 或 包含 某 个 指定 的 值 的 结 点 。 





在 XPath 中 ,路 径 表 达 式 中 的 谓语 被 嵌 在 方 括号 [. ] 中 。XPath 的 谓语 即 筛选 表达 式 ， 
类 似 于 SQL 的 WHERE 子 句 。 

下 面 列 出 了 带 有 谓语 的 一 些 路 径 表 达 式 及 表达 式 的 结果 。 

(1) 路 径 表 达 式 : /bookstore/book[1] 

查询 结果 : 选取 属于 bookstore 子 元 素 的 第 一 个 book 元 素 。 

(2) 路 径 表达 式 : /bookstore/book[last()] 

查询 结果 : 选取 属于 bookstore 子 元 素 的 最 后 一 个 book 元 素 。 

(3) 路 径 表达 式 : /bookstore/book[last()-1] 

查询 结果 : 选取 属于 bookstore 子 元 素 的 倒数 第 二 个 book 元 素 。 

(4) 路 径 表 达 式 : /bookstore/book[ position()<3] 

选取 最 前 面 的 两 个 属于 bookstore 元 素 的 子 元 素 的 book 元 素 。 

(5) 路 径 表达 式 :/ /title[@lang] 

查询 结果 : 选取 所 有 拥有 名 为 lang 的 属性 的 title 元 素 。 

(6) 路 径 表达 式 ://title[ @lang 二 'eng'] 

查询 结果 : 选取 所 有 title 元 素 , 且 这 些 元 素 拥有 值 为 eng 的 lang 属性 。 

(7) 路 径 表 达 式 : /bookstore/book[price > 35. 00] 

查询 结果 : 选取 bookstore 元 素 的 所 有 book 元 素 , 且 其 中 的 price 元 素 的 值 须 大 于 35. 00。 

(8) 路 径 表 达 式 : /bookstore/book[price > 35. 00]/title 

查询 结果 : 选取 bookstore 元 素 中 的 book 元 素 的 所 有 title 元 素 , 其 中 price 元 素 值 须 
大 于 .35.006 

2) 基于 通配符 路 径 表 达 式 

如 果 路 径 表 达 式 中 具有 未 知 结 点 ,XPath 则 可 以 采用 基于 通配符 的 路 径 表达 式 。 

XPath 通配符 可 用 来 选取 未 知 的 XML 元 素 。 

(1) * : 匹配 任何 元 素 结 点 。 

(2) @* : 匹配 任何 属性 结 点 。 

(3) node(): 匹配 任何 类 型 的 结 点 。 

下 面 列 出 一 些 带 通配符 的 路 径 表达 式 及 这 些 表达 式 的 结果 。 

(1) 带 通 配 符 表达 式 : /bookstore/ * 

查询 结果 : 选取 bookstore 元 素 的 所 有 子 元 素 。 

(2) 带 通配符 表达 式 : / /* 

查询 结果 : 选取 文档 中 的 所 有 元 素 。 

(3) 带 通 配 符 表 达 式 ://titleL@*] 

查询 结果 : 选取 所 有 带 有 属性 的 title 元 素 。 

3) 基于 并 列 选 择 路 径 表 达 式 

如 果 需 要 同时 选取 若干 并 列 路 径 , 则 XPath 可 以 采用 并 列 的 多 路 径 表 达 式 。 

通过 在 路 径 表 达 式 中 使 用 *| ?运算 符 以 选取 若干 个 路 径 。 

下 面 列 出 了 一 些 并 列 路 径 表 达 式 及 这 些 表 达 式 的 结果 。 

(1) 并 列 路 径 表 达 式 ://book/title | //book/price 

查询 结果 : 选取 book 元 素 的 所 有 title 和 price 元 素 。 
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(2) 并 列 路 径 表 达 式 ://title | //price 

查询 结果 : 选取 文档 中 的 所 有 title 和 price 元 素 。 

(3) 并 列 路 径 表达 式 : /bookstore/book /title | //price 

查询 结果 : 选取 属于 bookstore 元 素 的 book 元 素 的 所 有 title 元 素 , 以 及 文档 中 所 有 的 
price 元 素 。 


7.4.3 查询 语言 XQuery 


XQuery 是 一 个 用 于 XML 查询 的 语言 , 某 些 情况 下 也 被 称 为 XML Query。W3C 在 
2007 年 1 月 23 日 颁布 XQuery 1.0 为 推荐 标准 。 

XQuery 被 设计 用 来 查询 以 不 同形 式 出 现 的 XML, 包 括 XML 文档 形式 和 XML 数据 库 
文件 形式 。 从 XML 数据 库 角度 来 说 ,XQuery 对 于 XML 的 意义 就 类 似 于 SQL 对 于 关系 数 
据 表 的 意义 。 作 为 一 种 W3C 标准 ,XQuery 基本 功能 就 是 从 XML 文档 数据 中 查找 和 提取 
元 素 及 属性 ,现在 已 经 得 到 几乎 所 有 数据 库 如 DB2、Oracle 和 SQL Sever 等 的 支持 。 

1. FLWOR 表达 式 

XQuery 具有 SQL 的 查询 风格 ,一 方面 反映 了 人 们 使 用 数据 库 管 理 XML 文档 的 认 知 
和 努力 , 另 一 方面 也 表现 了 SQL 的 巨大 影响 。 其 中 最 具 特 色 的 就 是 XQuery 中 的 FLWOR 
查询 语句 。 

1) 基本 查询 子 句 

如 同人 们 将 SQL 基本 查询 语句 看 作 是 SELECT 表达 式 ,XQuery 基本 查询 语句 也 可 以 
说 就 是 FLWOR 表达 式 。 这 里 ,FLWOR 分 别 是 for、let、where、order by 和 return 5 个 查询 
子 语句 的 首 字母 ,表示 了 五 类 基本 的 查询 子 句 。 

(1) 遍历 语句 for…in…。 例 如 , for $x in doc("books. xml")//book, 在 所 有 的 book 
元 素 中 遍历 ,其 中 $x 是 临时 变量 。 

(2) 赋值 语句 let。 例 如 ,let $ x: = 二 3, 把 3 赋 给 x; let $x: = 二 (1 to 5), 把 x 赋值 为 
l= (Ys 

(3) 条 件 判断 语句 where。 例 如 , where $x 二 30 and $ x 二 60。 可 用 and 或 or 把 多 个 
条 件 连接 。 

(4) 排序 语句 order by。 例 如 ,order by $ x, 按 变量 x 的 值 排序 ,可 以 使 用 *,” 进 行 多 重 
排序 。 

(5) 返回 语句 return。 返 回 查询 结果 ,例如 ,return <1li>$ x</li>。 

【 例 7-12】 设 有 记 为 文件 名 bookstore3. xml 的 如 下 XML 数据 。 


<?xml version= "1.0" encoding = "ISO0— 8859 —1"?> 
< bookstore> 
< book category = "COOKING"> 
<title lang = "en"> Everyday Italian </title> 
< author > Giada De Laurentiis </author > 
< year > 2015 </year > 
<price>$ 30.00</price> 
</book > 
< book category = "CHILDREN"> 


<title lang = "en"> Harry Potter </title> 
< author >J K. Rowling </author > 
< year> 2016 </year> 
<price>$ 29.99 </price> 

</book > 

< book category = "WEB"> 
<title lang = "en"> XQuery Kick Start </title> 
< author > James McGovern </author > 
< author > Per Bothner </author > 
< author > Kurt Cagle </author > 
< author > James Linn </author > 
< author > Vaidyanathan Nagarajan </author > 
<year > 2016 </year> 
<price>$ 49.99 </price> 

</book> 

< book category = "WEB"> 
<title lang = "en"> Learning XML </title> 
<author > Erik T. Ray</author> 
< year > 2018 </year > 
<price>$ 39.95 </price> 

</book > 

</bookstore> 


使 用 FLWOR 从 "books. xml" 选取 结 点 的 查询 表达 式 如 下 。 


for $x in doc("books.xml")/bookstore/book 

where $ x/price>30 

return $ x/title 

上 述 表 达 式 表示 需 选 取 bookstore 元 素 下 的 book 元 素 下 所 有 的 title 元 素 ,并 且 其 中 的 
price 元 素 的 值 必 须 大 于 30. 00。 

(1) for 请 句 : 把 bookstore 元 素 下 的 所 有 book 元 素 提 取 到 名 为 $ x 的 变量 中 。 

(2) where 语句 : 选取 了 price 元 素 值 大 于 30. 00 的 book 元 素 。 

(3) order by 语句: 定义 了 排序 次 序 。 将 根据 title 元 素 进行 排序 。 

(4) return 语句 : 规定 返回 什么 内 容 。 在 此 返回 的 是 title 元 素 。 

查询 结果 如 下 。 


<title lang = "en"> XQuery Kick Start </title> 
<title lang = "en"> Learning XML </title> 


如 果 还 需要 对 查询 结果 进行 排序 , 则 可 使 用 下 述 FLWOR 表达 式 。 


for $x in doc("books.xml")/bookstore/book 
where $ x/price>30 
order by $ x/title 


查询 结果 为 : 


<title lang = "en"> Learning XML </title> 
<title lang = "en"> XQuery Kick Start </title> 
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需要 指出 ,上 面 第 一 个 FLWOR 表达 式 和 下 述 使 用 doc() 函 数 的 XPath 路 径 表 达 式 选 
取 结 果 相 同 : 


doc( "books. xml")/bookstore/book[price> 30]/title 


2) XQuery 语法 规则 

(1) 基础 语法 规则 : XQuery 基础 语法 规则 主要 有 下 述 情形 。 

g@ 字符 及 字符 串 规 则 : XQuery 表达 式 对 于 字符 的 大 小 写 敏感 ,同时 XQuery 字符 串 值 
可 使 用 单 引 号 或 双 引 号 。 

@ 元 素 与 变量 规则 : XQuery 元 素 、 属 性 及 变量 必须 是 合法 的 XML 名 称 ,XQuery 变量 
由 “$ ”并 跟随 一 个 名 称 来 进行 定义 ,如 $ bookstore。 

@ 注释 规则 : XQuery 注释 被 (: 和 :) 分 割 ,如 (:XQuery 注释 :) 。 

(2) 条 件 表达 式 XQuery 条 件 表达 式 中 可 以 使 用 “if-then-else”。 

【 例 7-13】 设 有 如 下 查询 表达 式 。 

for $x in doc("books.xml")/bookstore/book 

return if ( $ x/@category = "CHILDREN") 


then <child>{data( $ x/title)}</child> 
else <adult >{data( $ x/title)}</adult > 


需要 注意 得 是 ,if 表达 式 后 的 圆 括 号 和 else 都 是 必需 的 ,不 过 也 可 仅 写 else()。 

上 述 表达 式 查 询 结 果 为 : 

<adult > Everyday Italian </adult > 

<child> Harry Potter </child> 

<adult > Learning XML </adult > 

<adult > XQuery Kick Start </adult > 

(3) XQuery 比较 : 在 XQuery 中 ,有 两 种 方法 来 比较 值 。 

通用 比较 : 一 、! 一 、<、< 一 、>、> 一 。 

@ 值 的 比较 : eq\ne\lt\le\gt\ge 。 

通用 与 值 比较 XQuery 表达 式 如 下 。 

通用 比较 : $ bookstore//book/@q > 10 如 果 q 属性 的 值 大 于 10, 上 面 的 表达 式 的 返 
回 值 为 true。 

值 比较 : $ bookstore//book/@q gt 10 如 果 仅 返回 一 个 q, 且 它 的 值 大 于 10, 那 么 表达 
式 返 回 true。 如 果 不 止 一 个 q 被 返回 , 则 会 发 生 错误 。 

3) 获取 文档 和 结 点 

XQuery 使 用 函数 来 提取 XML 文档 中 的 数据 。 

获取 xml 文档 需 使 用 doc() 函 数 ,如 doc("books. xml") ,其 中 , doc() 用 于 打开 "books. 
xml" 文 件 。 

得 到 doc 之 后 XQuery 就 可 使 用 XPath 路 径 表 达 式 在 XML 文档 中 通过 元 素 进行 导航 
而 取 值 ,如 doc("books. xml")//book/title, 取 得 当前 文档 中 所 有 book 元 素 下 的 title 元 素 。 

另外 ,也 可 以 使 用 限定 词 来 取 值 ,如 doc("books. xml")//book[Lprice 二 30]/title, 取 得 
当前 文档 中 所 有 价格 等 于 30 的 书 的 title 元 素 。 


下 面 的 路 径 表 达 式 用 于 在 books. xml 文件 中 选取 所 有 的 title 元 素 : 


doc( "books. xml" )/bookstore/book/title(/bookstore 选取 bookstore 元 素 , /book 选取 bookstore 
元 素 下 的 所 有 book 元 素 ,而 /title 选取 每 个 book 元 素 下 的 所 有 title 元 素 ) 


此 时 XQuery 可 获得 如 下 结果 。 


<title lang = "en"> Everyday Italian </title> 
<title lang = "en"> Harry Potter </title> 

en"> XQuery Kick Start </title> 
<title lang = "en"> Learning XML </title> 


下 面 的 谓语 用 于 选取 bookstore 元 素 下 的 所 有 book 元 素 , 并 且 所 选取 的 book 元 素 下 
的 price 元 素 的 值 必须 小 于 30。 





doc("books. xml" ) /bookstore/book[price< 30] 
上 面 的 XQuery 可 提取 到 下 面 的 数据 。 


< book category = "CHILDREN"> 
<title lang = "en"> Harry Potter </title> 
< author >J K. Rowling </author > 
< year > 2005 </year > 
<price> 29.99 </price> 
</book> 


4) 引用 输入 文件 中 的 元 素 和 属性 

XQuery 允许 在 结果 中 引用 输入 文件 中 的 元 素 和 属性 。 
设 有 如 下 表达 式 。 

for $x in doc("books.xml")/bookstore/book/title 


order by $x 
return $x 


此 时 ,会 在 结果 中 引用 title 元 素 和 lang 属性 。 


<title lang = "en"> Everyday Italian </title> 

<title lang = "en"> Harry Potter </title> 

<title lang = "en"> Learning XML </title> 

<title lang = "en"> XQuery Kick Start </title> 

以 上 XQuery 表达 式 返 回 title 元 素 的 方式 和 它们 在 输入 文档 中 被 描述 方式 相同 。 

2. XQuery 函数 

XQuery 1.0、XPath 2.0 及 XSLT 2.0 共享 相同 的 函数 库 。XQuery 含有 超过 100 个 内 
建 的 函数 。 这 些 函 数 可 用 于 字符 串 值 数 值 .日 期 及 时 间 比 较 、 结 点 和 QName 操作 、 序 列 操 
作 、 逻 辑 值 等 。 用 户 也 可 在 XQuery 中 定义 自己 的 函数 。 

1) XQuery 内 建 函 数 

XQuery 函数 命名 空间 的 URI: http://www. w3. org/2005/02/xpath-functions。 

函数 命名 空间 的 默认 前 绥 为 mm:。 

需要 注意 的 是 ,函数 经 常 被 通过 fn: 前 级 进行 调用 ,如 fn: string()。 但 是 ,由 于 fn: 是 
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命名 空间 的 默认 前 级 ,因此 函数 名 称 不 必 在 被 调用 时 使 用 前 级 。 
函数 调用 可 与 表达 式 一 同 使 用 。 
(1) 在 元 素 中 调用 。 


< name >{uppercase( $ booktitle) }</name> 

(2) 在 路 径 表 达 式 的 谓语 中 调用 。 

doc( "books. xml" ) /bookstore/book[ substring(title, 1,5) = "Harry'] 
(3) 在 let 语句 中 调用 。 

let $ name: = (substring( $ booktitle,1,4)) 


2) XQuery 用 户 定义 函数 

用 户 也 可 在 查询 中 或 独立 的 库 中 自 定 义 函 数 , 相 应 语法 格式 如 下 。 

declare function 前 级 :函数 名 ( $ 参数 AS 数据 类 型 ) 

AS 返回 的 数据 类 型 

{ 

} ;关于 用 户 自 定义 函数 的 注释 : 

需要 注意 的 是 ,应 当 使 用 declare function 关键 词 , 同 时 ,函数 名 须 使 用 前 级 ; 参数 的 数 
据 类 型 通常 与 在 XML DTD 或 Schema 中 定义 的 数据 类 型 一 致 ， 函数 主体 须 被 大 括号 
包围 。 

一 个 在 查询 中 声明 的 用 户 自 定义 函数 如 下 。 


declare function local:minPrice( 
$ price as xs:decimal?, 
$ discount as xs:decimal?) 
RS xs:decimal? 
{ 
let $disc:=($pricex* $discount) div 100 
return ( $ price— $ disc) 
}; 
(: Below is an example of how to call the function above :) 
<minPrice>{local:minPrice( $ book/price, $ book/discount)}</minPrice> 
随 着 XML 应 用 的 普及 ,对 XML 文档 查询 的 要 求 也 就 越 来 越 高 。 如 果 不 对 XML 文档 
建立 索引 结构 ,那么 针对 XML 数据 的 任何 查询 都 很 可 能 导致 对 整个 文档 树 的 遍历 。 随 着 
XML 数据 集 的 增 大 ,这 种 遍历 所 花费 的 开销 是 不 可 忍受 的 ,XML 索引 结构 的 提出 正 是 为 
了 提高 查询 的 效率 ,在 速度 与 准确 性 两 方面 为 查询 提供 更 大 的 灵活 性 ,通过 减少 访问 那些 与 
查询 不 相关 的 数据 集 来 实现 快速 查询 。 对 XML 数据 建立 有 效 的 索引 ,是 关乎 XML 数据 处 
理性 能 的 重要 因素 。 


7.4.4 遍历 查询 存在 的 问题 


基于 规范 接口 的 DOM 和 SAX 查询 方式 会 出 现下 述 两 个 问题 。 
(1) 路 径 多 次 搜索 : 进行 查询 语句 中 结构 关系 匹配 过 程 中 ,需要 遍历 结果 结 点 集合 中 





元 素 所 涉及 的 全 部 路 径 , 对 查询 效率 影响 较 大 。 

(2) 结 点 重复 访问 : 对 于 XML 中 具有 相同 标签 路 径 的 结 点 ,需要 进行 多 次 重复 访问 。 

SAX 和 DOM 都 是 基于 文档 处 理 的 XML 查询 方 
式 , 依 据 的 查询 技术 主要 深度 优先 遍历 ,因此 从 本 质 上 来 
说 ,还 是 属于 “遍历 查询 ”的 范畴 ,存在 着 数据 查询 方面 的 
技术 缺陷 。 下 面 以 图 7-5 所 示 的 XML 模式 予以 说 明 。 

(1) 访问 无 关 结 点 : 在 XML 数据 中 ,如 果 采 取 遍 历 。 © a a ol 
方式 寻找 满足 查询 相应 结构 关系 的 数据 结 点 , 则 可 能 需 
要 访问 大 量 在 查询 表达 式 中 不 出 现 的 结 点 。 例 如 ,对 于 
查询 表达 式 a1//c 来 说 ,按照 遍历 方式 就 需要 访问 b 和 b, 等 在 表达 式 中 没有 出 现 的 结 点 ， 
从 某 种 意义 上 来 看 ,遍历 访问 了 “无 用 ”的 结 点 。 

(2) 重复 访问 标记 相同 结 点 : XML 文档 中 ,通常 具有 大 量 完全 相同 的 标记 路 径 ,如 在 
图 7-5 中 的 标记 路 径 *a/bi/c” 就 出 现 了 两 次 。 在 遍历 方式 中 ,这 样 的 路 径 不 管 有 多 少 次 ， 
都 需要 逐一 访问 , 即 相 同 标记 路 径 都 要 访问 多 次 ,这 实际 上 是 一 种 “ 宛 余 ” 访 问 ,从 而 导致 较 
低 的 查询 效率 。 如 果 能 将 同样 路 径 的 结 点 汇集 到 同一 结 点 中 ,就 可 大 幅 提高 搜索 效率 。 

(3) 产生 大 量 随机 I/O : 如 果 在 存储 过 程 中 ,XML 数据 树 的 叶 结 点 不 能 放 在 同一 数据 
块 中 , 则 相应 查询 就 会 涉及 大 量 不 同 数据 块 访问 ,产生 很 多 的 随机 I/O。 例 如 ,对 于 查询 表 
达 式 a1//c 来 说 ,如 果 图 7-5 中 叶 结 点 不 在 同一 数据 块 中 , 则 相应 遍历 查询 就 需 访问 多 个 数 
据 块 。 

针对 SAX 和 DOM 不 足 , 人 们 提出 XML 数据 索引 技术 。 


7.5 XML 数据 索引 


XML 文档 通过 数据 建 模 后 ,具有 如 下 基本 特性 。 

特性 1: 可 以 表示 为 有 向 树 或 具 根 有 向 图 ,而 对 于 树 或 图 都 存在 着 各 类 有 效 的 遍历 
方式 。 

特性 2: 其 中 一 条 标签 路 径 可 以 对 应 多 条 不 同 的 结 点 路 径 。 

(1) 由 特性 1: 通过 适当 遍历 方式 将 树 或 图 中 所 有 结 点 排序 ,同时 赋予 某 种 带 有 结 点 结 
构 与 位 置信 息 的 适当 编码 ,这 样 就 将 * 结 点 ”集合 转换 为 “编码 集合 。 由 于 编码 集合 “有 序 ”， 
在 利用 经 典 索引 技术 (如 B+ 树 等 ) 时 就 可 以 建立 起 基于 * 结 点 记录 ”的 索引 。 

(2) 由 特性 2: 可 以 将 具有 相同 “标签 路 径 ” 的 “ 结 点 路 径 ” 进 行 归并 聚 类 ,这 里 的 关键 问 
题 是 归并 聚 类 标准 即 “ 等 价 关系 ”的 设 定 ,得 到 的 等 价 类 就 是 所 谓 的 “结构 摘要 ”, 由 此 就 可 以 
建立 起 基于 “结构 摘要 ”的 索引 。 

本 节 简 要 介绍 基于 上 述 两 种 类 型 的 XML 数据 索引 方法 。 


7.5.1 基本 考量 与 分 类 


建立 任何 一 种 索引 技术 都 有 其 自身 的 基本 考量 , 即 索 引 操作 的 实现 需要 达到 怎样 的 查 
询 目标 。 同 时 ,基于 某 种 数据 对 象 可 能 存在 不 止 一 种 数据 索引 方法 ,对 这 些 索 引进 行 适当 分 
类 以 昭 显 其 内 在 特质 和 使 用 边界 ,这 对 于 相关 原理 与 技术 的 深入 研究 具有 基本 的 价值 。 
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1. 索引 考量 要 素 

一 种 XML 索引 技术 能 够 在 数据 查询 过 程 中 有 效 地 发 挥 作用 , 需 满足 一 些 基 本 技术 
要 求 。 

1) 基于 查询 要 求 

不 论 XML 索引 采用 何 种 形式 ,其 实际 设计 与 实现 都 须 考虑 XML 查询 的 基本 特征 一 
结构 关系 的 保存 和 根据 结构 信息 快速 计算 结 点 之 间 的 位 置 关系 。 如 前 所 述 , 相 对 于 常规 数 
据 索引 查询 ,XML 查询 涉及 较 多 内 容 ,主要 包括 下 述 两 个 方面 。 

(1) 获取 结构 关系 。 传 统 索引 技术 主要 是 根据 数据 的 值 来 定位 数据 记录 ,本 质 上 并 不 
关注 数据 关系 的 特定 表示 模式 即 数据 记录 间 的 逻辑 关系 。XML 数据 查询 基本 要 求 却 是 需 
要 根据 模式 特征 (路 径 表 达 式 形式 描述 的 结构 关系 ) 的 输入 提取 符合 该 模式 的 数据 ,因此 
XML 索引 实际 上 就 是 一 种 适用 于 模式 匹配 的 技术 ,而 针对 路 径 表 达 式 的 相关 设计 也 就 成 
为 索引 需要 考虑 的 重点 内 容 。XML 查询 中 模式 匹配 的 主要 问题 是 对 XML 数据 中 结构 关 
系 的 表达 ,考虑 如 何 利用 已 有 的 索引 技术 为 高 效 获取 符合 结构 关系 (如 包含 关系 ) 的 数据 集 
合 提供 支持 。 

(2) 保持 顺序 关系 。 在 具体 XML 文档 中 ,各 个 元 素 之 间 都 具有 一 定 顺序 限制 ,这 种 顺 
序 就 称 为 XML 文档 顺序 。 元 素 在 文档 中 出 现 的 顺序 取决 于 对 XML 树 的 适当 遍历 方式 是 
先 序 遍历 .中 序 遍历 还 是 后 序 遍 历 。 例 如 , 当 查 询 关 系 存储 的 XML 数据 时 ,由 于 关系 模式 
不 存在 顺序 概念 ,因此 需要 在 分 解 XML 的 过 程 中 考虑 如 何 确保 查询 的 结果 仍然 符合 结果 
元 素 集 在 原 XML 数据 中 的 顺序 关系 ,与 这 些 元 素 在 原 XML 文档 先 序 遍历 顺序 之 间 有 一 一 
对 应 的 关系 ,而 且 元 素 之 间 结 构 关系 也 须 一 致 。 

2) 基于 更 新 要 求 

XML 数据 基本 形式 是 XML 文档 。 目 前 ,对 XML 数据 的 处 理 分 为 两 种 不 同方 式 : 
XML 流 处 理 和 静态 数据 处 理 方式 。 静 态 数据 处 理 方式 也 就 是 传统 的 数据 管理 形式 ; 而 在 
XML 流 处 理 方式 中 ,数据 的 动态 性 将 导致 数据 需要 经 常 更 新 ,如 何 有 效 地 实现 给 定 索引 动 
态 管理 是 索引 设计 时 的 一 种 基本 考虑 。 

(1) 数据 更 新 有 效 性 。 目 前 对 于 XML 数据 更 新 还 未 形成 统一 标准 。 在 实际 应 用 考虑 
中 ,通常 可 以 给 出 一 些 XML 数据 更 新 操作 概念 ,并 就 如 何在 XQuery 之 上 实现 数据 修改 功 
能 的 扩展 进行 了 探讨 。XML 数据 通常 都 会 有 相应 类 型 限制 : 当 XML 模式 不 存在 时 ,XML 
须 是 良好 的 ; 当 存 在 一 个 相关 联 的 XML 模式 时 ,XML 数据 就 必须 满足 模式 规定 的 数据 生 
成 规则 。 由 于 更 新 有 可 能 改变 XML 数据 结构 ,那么 ,需要 在 更 新 之 前 确认 这 种 更 新 不 会 改 
变 XML 模式 规定 的 限制 。 

(2) 索引 增 量 式 更 新 。 数 据 改变 将 引发 索引 的 相应 变动 。 如 果 数 据 只 是 部 分 改变 , 重 
新 建立 整个 索引 将 带 来 很 大 开销 。 因 此 ,数据 部 分 改变 ,索引 也 应 当 部 分 改变 ,这 就 是 索引 
的 增 量 式 更 新 。 增 量 式 更 新 一 个 基本 要 求 是 更 新 后 的 索引 应 当 与 索引 的 完全 式 更 新 效果 相 
同 ,这 就 需要 维护 XML 数据 与 XML 索引 之 间 的 一 致 性 , 即 保证 XML 索引 增 量 式 更 新 能 
够 准确 地 反映 XML 数据 方面 的 相应 更 新 。 

2. 索引 基本 分 类 

XML 数据 管理 领域 中 关键 问题 是 研究 相关 支持 查询 模式 的 处 理 技术 ,而 XML 数据 索 
引 技 术 就 是 这 类 支持 技术 的 核心 之 一 。 经 过 多 年 的 研究 ,已 经 出 现 了 众多 的 索引 技术 。 对 


于 这 些 索引 方法 ,可 以 从 不 同 视角 进行 分 类 。 

(1) 按照 索引 的 数据 对 象 可 分 为 下 述 情形 。 

Q@ 基于 值 对 象 索引 : 即 在 属性 值 或 结 点 内 容 上 建立 索引 。 

@ 基于 结 点 名 索引 : 即 在 结 点 标记 上 建立 索引 。 

@ 基于 边 或 路 径 索 引 : 即 在 XML 文档 树 的 边 上 建立 索引 。 

(2) 按照 索引 的 应 用 目标 可 分 为 下 述 情形 。 

QO 简单 索引 : 它 包 括 标 记 索 引 、 值 索引 、 属 性 索引 等 。 

@ 路 径 索引 : 它 抽 取 XML 数据 的 结构 ,索引 具有 相同 路 径 或 标记 的 结 点 用 于 导航 查 
询 时 缩小 搜索 的 范围 。 

@ 连接 索引 : 它 在 元 素 的 编码 上 建立 特定 的 索引 结构 来 辅助 跳 过 不 可 能 发 生 连 接 的 
结 点 ,从 而 避免 对 这 些 结 点 的 处 理 可 以 利用 的 索引 结构 包括 Bf 树 、 改 进 的 B* 树 (R 树 和 
XR 树 等 ) 。 

(3) 按照 对 XML 数据 结构 信息 处 理 方式 可 分 为 下 述 情形 。 

g@ 结 点 记录 类 索引 : 类 似 于 树 结 构 的 保存 。 基 于 实际 的 处 理 要 求 , 将 XML 数据 单元 
(标签 名 称 .属性 名 称 、 属 性 的 值 .文本 ,或 者 文本 中 的 字符 串 等 ) 作 为 记录 保存 ,同时 在 数据 
单元 的 记录 中 保存 有 助 于 确定 结 点 之 间 结 构 关 系 的 位 置信 息 。 基 本 模式 为 (数据 单元 标识 ， 
数据 单元 在 XML 中 的 位 置信 息 )。 需 要 存储 的 位 置信 息 可 分 为 两 种 情况 ,一 是 结 点 在 某 种 
遍历 方法 所 得 字符 序列 中 的 序号 ; 二 是 结 点 在 XML 文档 中 的 路 径 信息 。 

@ 结构 摘要 类 索引 : 将 XML 数据 按照 标签 路 径 进行 约 简 归并 ,这 种 约 简 中 只 存储 保 
存 XML 数据 中 不 同 的 标签 路 径 ,将 具有 相同 标签 路 径 的 结 点 集合 作为 约 简 中 标签 路 径 末 
端 结 点 的 内 容 ,此 时 将 常规 XML 数据 的 路 径 查询 处 理 转换 为 通过 在 约 简 结构 中 的 处 理 
过 程 。 

在 这 种 分 类 方式 中 ,相对 基于 DOM 和 SAX 的 遍历 查询 ,基于 结 点 记录 索引 可 以 较 好 
解决 “路 径 多 次 搜索 ”问题 ,而 基于 结构 摘要 索引 可 以 较 好 解决 “ 结 点 重复 访问 问题。 以 下 
按照 * 结 点 记录 ”类 和 “结构 摘要 ”类 分 别 简 述 相 应 的 具有 代表 性 的 XML 索引 方法 。 


7.5.2 结 点 记录 类 索引 


如 前 所 述 ,人 遍历 方法 中 的 第 一 种 问题 是 由 于 查询 处 理 必 须 通过 标签 路 径 查找 结 点 这 
一 限制 造成 的 , 即 要 想 最 终 得 到 满足 查询 路 径 的 结 点 ,必须 顺序 地 依次 访问 标签 路 径 对 
应 的 结 点 路 径 。 那 么 ,能 和 否 考 虑 避免 必须 通过 路 径 查 找 结 点 ,而 在 某 种 辅助 信息 的 帮助 
下 ,直接 针对 结 点 集合 的 划分 得 到 最 后 结果 呢 ? 这 就 形成 了 结 点 记录 类 XML 索引 的 基 
本 思想 。 

结 点 记录 类 索引 实际 上 是 将 XML 数据 分 解 为 数据 单元 的 记录 集合 ,同时 在 记录 中 保 
存 该 单元 在 XML 数据 中 的 位 置信 息 。 

位 置信 息 通常 分 为 两 类 。 

(1) 结 点 在 某 种 遍历 方法 所 得 字符 序列 中 的 序号 信息 。 

(2) 结 点 在 XML 文档 中 的 路 径 信息 。 

由 此 按照 不 同位 置信 息 , 就 有 相应 获取 信息 的 两 种 方法 : 结 点 序号 法 (node numbering 
method) 也 称 为 结 点 标签 方法 (node labeling method); 结 点 路 径 法 (node path method) 。 
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这 样 在 实际 应 用 中 ,根据 路 径 信息 不 同 的 表现 形式 , 结 点 记录 类 索引 分 为 基于 结 点 序号 
的 索引 、` 基 于 结 点 路 径 信息 的 索引 和 二 者 相 结合 的 混合 索引 等 类 型 。 

应 用 结 点 记录 类 索引 查询 结果 是 满足 条 件 结 点 的 集合 ,按照 查询 操作 的 封闭 性 要 求 , 真 
正 输出 的 是 XML 形式 ,或 者 至 少 是 具有 层次 结构 的 形式 。 因 此 ,还 需要 根据 相应 的 结 点 信 
息 对 初步 查询 结果 进行 重 构 ,即将 适当 的 结 点 按照 层次 结构 “连接 ”起 来 。 

查找 给 定 结 点 对 的 某 种 结构 关系 的 操作 称 为 结构 连接 运算 ,这 在 XML 数据 处 理 中 也 
可 以 看 作 是 一 类 可 以 独立 存在 的 基本 操作 。 例 如 ,对 于 查询 表达 式 a/[bj//c, 首 先 将 其 分 
解 为 a/b 和 //a//c, 青 考虑 基于 父 / 子 关系 的 连接 运算 ,得 到 相应 结 点 对 (a,b) ,同时 考虑 基 
于 祖先 /后 裔 关系 的 连接 运算 ,得 到 相应 结 点 对 (ac); 最 后 通过 适当 方式 ,对 得 到 的 两 个 结 
点 对 集合 进行 装配 ,从 而 完成 相应 查询 。 

需要 指出 的 是 ,这 种 结构 连接 方法 不 仅 可 直接 用 于 XML 数据 查询 过 程 , 即 使 在 应 用 其 
他 类 型 索引 时 , 当 得 到 结果 是 所 需 查询 结果 的 超 集 时 ,为 了 得 到 准确 查询 结果 ,同样 需要 进 
行 结 点 对 的 连接 运算 。 连 接 运 算 的 优势 在 于 , 当 需 要 考虑 祖先 /子孙 关系 时 ,如 a//b, 并 不 
需要 搜索 连接 a 和 b 中 间 "* 无 用 ? 结 点 ,从 而 可 大 幅 提高 查询 效率 。 基 于 结 点 记录 索引 得 到 
的 结 点 带 有 相应 的 结构 位 置信 息 ,通过 这 种 索引 技术 也 是 实现 连接 运算 的 一 种 有 效 途 径 。 

基于 结 点 记录 索引 的 基础 是 对 结 点 进行 “编码 ”, 而 编码 中 带 有 所 需要 的 结 点 的 结构 位 
置信 息 ,因此 结 点 记录 索引 也 可 以 看 作 是 结 点 编码 索引 。 研 究 一 种 结 点 编码 方案 通常 需要 
考虑 下 述 两 个 基本 因素 。 

(1) 快速 性 。 能 够 快速 确定 XML 数据 树 中 任何 一 个 结 点 对 的 包含 与 文档 位 置 关 系 。 

(2) 完全 性 。 能 够 有 效 搜索 某 个 特定 结构 关系 在 XML 数据 树 中 出 现 的 所 有 情况 。 

现 有 结 点 编码 方案 大 致 可 以 分 为 以 下 两 种 类 型 。 

Q@ 基于 路 径 编 码 (path-based) 。 针 对 结 点 间 艇 套 特 征 , 利 用 绝对 路 径 和 其 终点 的 相互 
确定 性 ,对 于 每 一 绝对 路 径 的 终点 赋予 一 个 编码 ,这 种 编码 可 以 是 数值 型 的 ,也 可 以 是 根据 
结 点 标签 得 到 的 字符 型 编码 。 

@ 基于 区 间 编 码 (region-based)。 针 对 结 点 的 有 序 特征 ,按照 某 种 遍历 顺序 ,对 XML 
数据 树 中 的 每 个 结 点 赋予 一 个 编码 ,这 种 编码 通常 都 是 数组 型 。 

为 了 表述 简便 和 突出 主线 ,以 下 假设 各 类 编码 方案 的 数据 对 象 都 是 XML 数据 树 , 即 基 
于 有 向 树 模式 的 XML 数据 。 








1. 基于 路 径 编码 
基于 路 径 编码 主要 有 “位 向 量 " 编 码 和 “前 级 ”编码 两 种 方式 。 
1) 位 向 量 编码 


设 XML 数据 树 荆 具有 nn 个 结 点 , 则 位 向 量 编码 是 将 中 每 个 结 点 赋予 一 个 位 向 量 ， 
当 结 点 u 按照 某 种 遍历 顺序 (如 先 序 遍历 ) 的 序号 是 p, 则 其 位 向 量 编码 第 p 位 上 的 分 量 就 
是 "1 

位 向 量 编码 是 一 个 由 上 到 下 或 由 下 到 上 的 编码 方案 ,每 个 结 点 都 继承 标识 其 祖先 结 点 
或 后 背 结 点 的 所 有 位 置 上 的 *1”。 例 如 ,车 结 点 x 的 位 向 量 编码 为 dx) 一 (sysz,…,s), 当 
对 应 模式 树 上 的 第 & 个 结 点 为 x 本 身 或 x 的 祖先 结 点 时 .si 二 1, 否 则 ,si 二 0。 

通过 位 向 量 编码 ,可 以 有 效 地 确定 两 个 结 点 之 间 是 否 具 有 祖先 /后 裔 关系 。 实 际 上 ,由 
两 个 结 点 w 和 w 的 位 向 量 编码 d (wu) 和 d(wv) 的 合 取 运算 即 可 确定 是 否 为 v 的 祖先 ,w 是 


的 祖先 ex (u)Ad(v) 二 d(wu); 而 由 析 取 运算 可 确定 x 是 否 为 v 的 后 裔 ,是 v 的 后 痛心 
d (u) Vd(v)=d(u)., 

由 此 可 知 , 位 向 量 编 码 能 够 有 效 支 持 结 点 间 包 含 关系 的 检测 。 位 向 量 编 码 的 一 个 实例 
如 图 7-6 所 示 。 

2) 前 级 编码 

如 果 将 一 个 结 点 的 父 结 点 编码 作为 其 自身 编码 的 前 级 部 分 , 则 该 编码 就 是 前 级 编码 。 
前 级 编码 也 称 为 Dewey 编码 。 

设 w 是 XML 数据 树 工 中 的 一 个 结 点 ,其 前 级 编码 为 da(u), 则 其 子 结 点 wv 的 前 级 编码 
d (vv) 定义 为 d(v)= 二 d(w).n, 其 中 为 v 在 wu 的 所 有 子 结 点 中 序号 。 

前 级 编码 具有 如 下 基本 性 质 。 

(1) 结 点 4 是 结 点 v 的 后 裔 ,dv) 是 d(w) 的 前 级 。 

(2) 车 4 是 v 的 左 兄 弟 结 点 , 则 du) 大 于 d(w)。 

由 上 述 可 知 ,前 级 编码 即 可 支持 包含 关系 的 判定 ,也 可 支持 文档 位 置 关 系 的 计算 。 前 级 
编码 的 实例 如 图 7-7 所 示 。 
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2. 基于 区 间 编 码 


设 XML 数据 树 为 TT。 对 于 中 每 个 结 点 w 都 赋予 一 个 二 元 组 区 间 : [begin (w)， 
end(u)]。 由 两 个 区 间 编 码 包 含 与 否 ,确定 相应 两 个 结 点 之 间 是 否 有 祖先 /后 裔 关系 。 也 就 
是 说 ,区 间 编 码 应 当 满足 以 下 两 个 条 件 。 

(1) XML 模式 树 中 结 点 w 是 结 点 v 的 祖先 ex(begin(w)< begin(z))ACend(w)< end(w))。 

(2) 两 个 结 点 的 区 间 ( 编 码 ) 只 有 包含 或 相 离 两 种 基本 关系 。 

对 于 区 间 始 点 和 终点 选取 不 同 ,可 以 形成 不 同类 型 的 区 间 编 码 。 

1) Dietz 编码 

如 果 将 XML 数据 树 T 中 结 点 赋予 一 个 由 先 序 遍 





post) , 则 编码 就 构成 XML 树 T 的 Dietz 编码 。 

XML 数据 树 中 结 点 u 和 w 具有 祖先 /后 裔 关系 作 
(pre(w< pre(u))A(post(v)< post(u)), 

Dietz 编码 的 实例 如 图 7-8 所 示 。 

对 于 Dietz 编码 方案 来 说 ,begin(x) 和 end(w) 都 3.1 42 7.4 8.6 
可 以 作为 结 点 x 的 唯一 标识 。 图 7-8 ”Dietz 编码 实例 
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2) Li-moon 编码 

在 Li-moon 编码 中 ,区 间 编 码 的 始点 和 终点 分 别 为 结 点 的 扩展 先 序 编码 序号 和 结 点 后 
裔 的 范围 , 即 XML 数据 树 中 结 点 x 的 Li-moon 编码 为 (order(w) ,size(u))。 作 为 的 扩展 
先 序 序号 ,order(z) 为 非 连续 取 值 ,其 作用 是 为 结 点 插入 预 留 相应 的 序号 空间 。XML 数据 
树 的 Li-moon 编码 (order(x) ,size(x)) 需 要 满足 下 述 条 件 。 

(1) 车 v 是 uw 的 父 结 点 , 则 

(order(v)< order(u)) M (order(u)++size(u)order(v) 十 sizeCx)) 
(2) 若 在 扩展 先 序 遍 历 中 ,zx 是 y 的 右 兄弟 结 点 , 则 
order(y) 十 size(y)< order(Z) 
(3) 若是 wx 的 所 有 子 结 点 , 则 
size(z) 之 > size(u) 


ETV 


由 上 述 Li-moon 编码 概念 可 得 到 下 述 基本 性 质 。 

(1) 两 个 结 点 u 和 w 具有 祖先 /后 裔 关系 <>(order(x)< order(v) 十 size(v)) (order(v) 十 
size(v) <order(u)+size(u))。 

(2) 将 结 点 w 再 赋予 一 个 该 结 点 的 深度 指标 depth(x) , 则 结 点 x 和 w 满足 父 / 子 关 系 坊 
wu 和 w 满足 祖先 /子孙 关系 且 depth(u) 二 depth(v) 一 1。 

与 Dietz 编码 比较 ,Li-moon 编码 能 够 更 好 支持 数据 的 更 新 。 

Li-moon 编码 的 实例 如 图 7-9 所 示 。 

3) Zhong 编码 

对 于 XML 数据 树 T 进行 先 序 遍 历 , 结 点 4 在 遍历 时 被 访问 两 次 并 产生 两 个 序号 ,一 是 
在 遍历 该 结 点 所 有 后 裔 结 点 前 访问 该 结 点 ,由 此 产生 相应 区 间 编 码 的 begin(u); 二 是 在 遍 
历 完 该 结 点 所 有 后 裔 结 点 后 再 访问 该 结 点 ,由 此 产生 相应 区 间 编 码 的 end(u)。 由 此 得 到 的 
区 间 编 码 称 为 Zhong 编码 。Zhong 编码 具有 下 述 基 本 人 性质。 

结 点 wu 和 w 具有 祖先 /后 裔 关系 人 begin(x)<begin(u) 和 end(v)<end(w) 在 Zhong 编码 
中 ,begin(x) 可 以 作为 结 点 x 的 唯一 标识 。 

Zhong 编码 的 实例 如 图 7-10 所 示 。 


1.100 


2,30 33,10 50,18 





3,6 15,4 51,10 62.6 3,4 5,6 11,12 13,14 


图 7-9 ”Li-moon 编码 实例 图 7-10 ”Zhong 编码 实例 


4) Wan 编码 

在 XML 数据 树 工 中 ,将 结 点 x 的 扩展 先 序 序号 order(z) 作 为 区 间 编 码 的 始点 ,而 将 结 
点 直 的 后 裔 中 最 大 的 扩展 先 序 遍历 序号 maxOrder(z) 作 为 区 间 编 码 的 终点 , 即 此 时 x 的 区 
间 编 码 为 (order(z) ,maxOrder(z) ) , 称 此 区 间 编 码 为 Wan 编码 。 


Wan 编码 具有 下 述 基 本 性 质 。 

结 点 x 和 习 具 有 祖先 /后 裔 关系 人 (order(zx)< order(v)) 人 maxOrder(v) 三 maxOrder(w) 。 

Wan 编码 的 实例 如 图 7-11 所 示 。 1.50 

3. 基于 UB-tree 索引 

基于 UB-tree XML 索引 基本 思想 : 由 XML 数 
据 树 TT 中 最 长 路 径 中 包含 的 边 数 d 作为 所 需 多 维 空 
间 的 维 数 4 ,再 将 中 每 一 条 绝对 路 径 映 射 为 d 维 空 
间 中 的 一 个 点 。 这 样 ,一 个 XML 数据 树 就 和 一 个 多 6 joe 0 a 
维 空间 中 的 点 集 相 对 应 ,从 而 可 以 通过 多 维 空间 索引 图 7-11 Wan 编码 实例 
UB-tree 完成 XML 数据 的 索引 。 

在 路 径 索引 记录 数据 的 管理 中 ,UB-tree 索引 突破 了 路 径 匹 配 只 能 基于 字符 串 匹 配 的 
限制 ,使 用 Z- 地 址 和 Z- 区 间 ,通过 对 路 径 的 转换 ,实现 了 借助 于 转换 对 路 径 的 多 维 管理 。 

Z- 地 址 : 设 2 表示 nn 维 空间 ,0 空间 中 每 条 记录 的 第 i 个 属性 A, 具有 * 个 可 能 的 取 值 ， 
表示 为 A; 二 Ai i,Ais-s 信 Aiwo ,对 0 空间 中 的 任 一 记录 o EQ, 定 义 唯一 的 Z- 地 址 函数 Z(0) 
与 之 对 应 : 








2 一 】 
2Z(0)= 2) >)A 2 


j=0 i 一 1 

利用 ZZ- 地 址 ,可 以 构建 一 个 从 维 空间 到 一 维 Z 一 地 址 空间 的 映射 。? 维 空间 中 每 一 
点 都 对 应 Z 一 地 址 空间 的 一 个 区 间 (e,p) , 称 为 Z- 区 间 (Z-region)。 以 B* 树 对 Z- 区 间 集 合 中 
的 数据 构建 索引 ,就 成 为 UB-tree 的 基本 考量 。 当 将 XML 路 径 集 合 看 作 是 某 个 维 空 间 
( 取 XML 数据 中 最 长 路 径 的 长 度 作 为 维度 的 值 ) 中 的 一 个 实例 时 ,就 可 以 实现 将 XML 
路 径 到 Z- 地 址 空间 的 转换 ,进而 可 以 实现 用 UB-tree 来 对 XML 路 径 信息 进行 索引 的 
目的 。 

二 维 空间 中 点 的 Z- 地 址 和 由 点 组 成 的 Z 曲线 如 图 7-12 所 示 。 
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00 | 00 | 01 04 | 05 16 17 | 20 | 21 00 
01 02 | 03 | 06 | 07 18 1 122 1 23 01 
02 | 08 | 09 12 13 | 24|25 |28 | 29 02 
03 10 11 14 15 | 26 |27|30 |31 03 
04|32133 136137 |148 |491|152 | 53 04 
05|34|35|38|39|50| 51 54 | 55 05 
06 | 40 | 41 4|145|56|57|60 | 61 06 1 
0o7|42|43|146147 |158159 |162 | 63 07 | 4 3 2 53 
(a) 二 维 空间 8X 8 Z- 地 址 (b) 二 维 空间 8X8 Z 曲 线 


图 7-12 Z- 地 址 和 Z 曲 线 


虽然 这 种 基于 转换 的 多 维 管理 结构 在 转换 代价 和 路 径 转换 空间 宛 余 两 个 方面 存在 不 
足 , 但 由 于 多 维 索引 的 概念 能 够 突破 对 字符 串 只 能 进行 连续 模式 匹配 的 方式 ,因此 ,在 这 个 
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方向 上 做 进一步 的 研究 具有 较 好 的 实际 意义 。 
7.5.3 结构 摘要 类 索引 


如 前 所 述 , 当 XML 有 向 树 中 还 需要 添加 “引用 边 ” 时 ,就 需要 通过 XML 具 根 有 向 图 来 
表示 相应 的 XML 数据 模式 。 结 构 摘 要 类 索引 适合 于 更 一 般 的 XML 具 根 有 向 图 情况 。 本 
节 索 引 的 数据 对 象 称 为 XML 数据 图 。 

由 XML 构成 概念 可 知 ,XML 数据 图 中 可 能 有 不 同 的 数据 结 点 具有 相同 的 语义 标签 ， 
由 此 就 可 能 存在 着 不 同 的 数据 结 点 具有 相同 的 绝对 或 相对 路 径 表 达 式 。XML 查询 表达 式 
基于 XPath, 而 XPath 中 的 路 径 表 达 式 实际 上 是 标签 路 径 表 达 式 。 如 前 所 述 ,一 个 标签 路 径 
表达 式 可 以 包含 多 个 不 同 的 结 点 路 径 表 达 式 ,但 通常 需要 得 到 基于 结 点 路 径 的 结 点 查询 结 
果 , 由 此 就 会 出 现 前 述 表明 的 “多 次 路 径 搜 索 ” 问 题 。 

结构 摘要 类 索引 基本 思想 : 以 XML 数据 图 结构 中 结 点 的 路 径 信息 为 基础 ,采取 适当 某 
种 约 简 方 式 对 图 中 的 标签 路 径 进 行 约 简 归并 ,使 得 约 简 后 的 数据 结构 只 需 维 护 不 同 的 标签 
路 径 信息 ,而 不 会 出 现 具有 相同 标签 路 径 的 两 个 不 同 结 点 。 

设 XML 数据 (有 向 ) 图 表示 为 四 元 组 G = (VG,EG,rootG, 2)G), R 是 VG 上 的 等 价 
关系 。 下 面 给 出 基于 R 的 结构 摘要 索引 的 形式 化 定义 。 

G 基于 R 结构 摘要 索引 模式 表示 为 一 个 标签 有 向 图 1G = (Vi(G),E(G),roou(G), 2)G) 

(1) V1(G): IG 中 结 点 集合 ,是 VG 中 满足 等 价 关系 R 的 结 点 等 价 类 , 称 为 索引 结 点 ， 
并 记 作 u. extent。 其 中 u. extent 表示 VG 中 结 点 u 基于 等 价 关 系 R 的 等 价 类 。 

(2) Ei1(G): IG 中 边 的 集合 ,其 中 边 元 素 满足 下 述 条 件 : 

Vg (uvi) EE(G) SI (uva) EEG ,满足 : us Eui. extent, va Evi. extent 

在 结构 摘要 索引 中 ,最 初 多 采用 自动 机 理论 中 的 NFA 到 DFA 转换 的 思路 。 稍 后 , 引 
和 人 能 够 准确 地 表述 结构 摘要 的 双 拟 概念 问题 , 现 有 工作 多 是 基于 这 个 概念 。 

结构 摘要 对 于 具有 相同 标签 路 径 的 文本 数据 都 只 保留 了 唯一 的 标签 路 径 , 具 有 相同 标 
签 路 径 的 文本 数据 都 集中 在 该 路 径 结 点 之 中 。 这 样 , 只 要 搜索 一 条 标签 路 径 就 可 以 获取 相 
同 标签 路 径 的 所 有 结 点 。 

(1) 按照 适用 的 查询 路 径 划 分 , 现 有 结构 摘要 索引 可 分 为 两 类 : 基于 线性 路 径 查 询 索 
引 和 基于 分 枝 路 径 查询 索引 。 

线性 路 径 查 询 更 为 基本 ,分 枝 路 径 查 询 比较 复杂 。 基 于 分 支 路 径 查询 主要 有 覆盖 索引 、 
F&Bindex 和 Index Fabric 等 。 

(2) 按照 索引 是 否 支持 数据 更 新 可 分 为 以 下 两 种 类 型 。 

@ 不 支持 更 新 的 索引 : 例如 ,在 线性 路 径 查 询 情况 下 ,其 主要 代表 为 DataGuides、1-index 
和 A(k)-index 等 ,它们 都 是 一 种 静态 索引 ,如 果 数 据 源 发 生 改变 ,索引 更 新 代价 通常 较 高 。 

@ 支持 更 新 的 索引 结构 : 例如 ,在 线性 路 径 查 询 情 况 下 ,其 主要 代表 为 APEX、D(k)- 
index 和 M(k)-index 等 ,这 些 都 是 所 谓 的 动态 索引 , 即 索 引 结 构 设计 都 考虑 数据 更 新 因素 ， 
具有 某 种 能 够 根据 数据 源 变 化 “自动 ”修改 索引 结构 的 功能 ,也 就 是 具有 更 新 的 “ 自 适应 性 ”。 

以 下 介绍 基于 线性 路 径 查 询 的 结构 摘要 类 索引 中 的 代表 性 方法 ,这 主要 是 DataGuides、 
l-index、A(k)-index、APEX 和 D(k)-index。 其 中 ,DataGuides 通常 被 认为 是 较 早出 现 的 结构 摘 


要 类 索引 , 它 能 够 精确 记录 XML 树 中 出 现 的 所 有 路 径 ,对 于 自 根 向 下 的 路 径 查 询 非常 有 用 ,但 
是 不 提供 任意 两 个 结 点 的 关系 的 判断 ,不 能 从 任意 结 点 开始 进行 向 下 的 路 径 查 询 。1-index 和 
A(k)-index 通过 对 结构 摘要 等 概念 的 形式 化 和 精确 化 方式 ,进一步 改进 了 DataGuides 中 的 方 
法 。APEX 和 D(k)-index 分 别 是 基于 更 新 的 具有 自 适 应 特性 的 结构 类 索引 。 

1. DataGuides 

作为 结构 摘要 类 索引 的 较 早期 代表 ,DataGuides 索引 已 在 Lore DBMS 中 得 到 了 实现 。 
设 Gxml 表示 XML 数据 图 ,Gind 表示 基于 DataGuides 的 XML 数据 索引 图 , 则 DataGuides 
的 基本 思想 是 对 于 Gxml 中 的 任何 一 条 标记 路 径 , 在 Gind 中 存在 且 只 存在 一 条 完全 相同 的 
标记 路 径 ; 而 对 于 Gind 中 的 任何 一 条 标记 路 径 , 在 Gxml 中 也 一 定 存 在 相同 的 一 条 标记 路 
径 。 图 7-13(b) 和 图 7-13(c) 都 是 图 7-13(a) 的 DataGuides 索引 。 


R_ 1 R R 

AdZ Bs,3 4 A 34 A 3,4 
Cts cts TCT7 CT 5 CT67 C 了 5.6,7 
D"8 D9 D*10 D* 8 D*9,10 D *8,9,10 


(a) (b) (0 
7-13 XML 数据 和 DataGuides 索引 


从 图 7-13 可 知 ,一 个 XML 数据 树 的 DataGuides 索引 并 不 唯一 ,如 图 7-13(b) 和 图 7-13(c) 都 
是 图 7-13(a) 的 DataGuides 索引 ,都 能 起 到 数据 索引 的 作用 ,而 图 7-13(c) 显 得 更 为 简洁 , 直 
观 上 似乎 应 该 选择 图 7-13(c) 。 但 图 7-13(c) 作 为 索引 使 用 实际 上 并 不 合适 。 在 图 7-13(c) 
中 ,考虑 到 图 7-13(a) ,索引 结 点 A 对 应 于 数据 结 点 5.6.7, 索 引 结 点 D 对 应 于 数据 结 点 8、 
9、10, 因 此 , 当 查 询 路 径 为 R/A/C/D 时 ,得 到 的 查询 结果 集合 就 为 {8,9,10}。 实 际 上 ,通过 
这 一 条 路 径 , 并 不 能 够 获取 结 点 9、10。 同 时 ,索引 的 维护 (插入 、 删 除 等 ) 是 衡量 一 个 索引 品 
质 的 重要 因素 。 由 于 这 种 索引 构建 的 不 唯一 性 ,对 图 7-13(a) 的 任何 更 新 都 可 能 给 索引 带 来 
各 种 影响 ,付出 令 人 望 而 生 且 的 更 新 开销 。 

DataGuides 索引 不 具 唯 一 性 的 原因 在 于 其 中 标签 结 点 的 “归并 ”标准 不 够 明确 , 即 
DataGuides 中 并 未 就 “归并 ”或 “ 结 点 等 价 ” 等 基础 概念 做 出 准确 描述 。 事实 上 ,如 果 
DataGuides 中 索引 结 点 中 数据 结 点 存在 不 等 价 现象 , 则 该 索引 就 可 能 并 不 适用 。 为 了 解决 
这 个 问题 ,需要 进一步 引入 数据 结 点 的 “进入 路 径 ? 概 念 。 

进入 路 径 : XML 数据 图 G 中 一 个 数据 结 点 wx 的 进入 路 径 (incoming path) 是 一 条 由 当 
前 结 点 到 zx 的 (标签 ) 路 径 。 

需要 注意 的 是 ,在 数据 图 模式 中 ,由 当前 结 点 到 达 一 个 确定 结 点 u 可 能 存在 多 条 当前 路 
径 , 因 此 明确 结 点 进入 路 径 非 常 必 要 。 基 于 进入 路 径 的 概念 ,人 们 提出 了 srongDataGuides 
索引 ,该 索引 的 基本 点 在 于 当 两 个 数据 结 点 存在 至 少 一 条 相同 进入 路 径 时 , 方 可 认定 uw 和 ww 
是 可 以 归并 的 即 “ 等 价 ” 的 。 图 7-14(b) 是 图 7-14(a) 的 StrongDataGuides 索引 。 

DataGuides 与 StrongDataGuides 索引 的 不 同 在 于 路 径 合并 的 策略 。 
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CC ee 96” 10 
(a) XML 数据 图 (b) StrongDataGuide 索 引 


图 7-14 XML 数据 图 和 StrongDataGuides 索引 


2. l-index 

由 于 DataGuides 索引 的 核心 是 标签 结 点 的 归并 ,而 这 种 归并 还 要 保留 数据 结 点 间 原 有 
的 结构 信息 ,因此 需要 将 “归并 ”标准 明确 化 和 规范 化 。StrongDataGuides 对 此 做 了 初步 尝 
试 ,但 是 还 可 以 进一步 深入 。 这 就 是 XML 数据 图 中 两 个 数据 结 点 uw 的 双 拟 概念 。 

在 XML 数据 图 G 中 , 当 两 结 点 wx 和 ww 满 足下 述 条 件 , 则 称 w 和 ww 是 双 拟 的 (bisimulation) 。 

(1) 当 x 是 根 结 点 时 ,也 是 根 结 点 。 

(2) 当 w 和 w 是 非 根 结 点 时 ,两 者 具有 相同 标签 ,并 且 如 果 结 点 w 和 wo 之 间 存 在 连接 
边 (u,uo),v 和 wo 之 间 也 存在 连接 边 (v,vo) ,而 xe 和 w 也 是 双 拟 的 ,同时 ,反之 亦 然 。 

如 果 XML 数据 图 G 中 两 个 结 点 wu 和 w 是 双 拟 的 , 则 称 两 个 结 点 wu 和 w 之 间 存 在 双 似 
关系 (bisimilarity) ,并 记 为 uv。 

双 似 关系 是 满足 自 反 性 、 对 称 性 和 传递 性 的 等 价 关 系 。 结 合 “ 进 入 路 径 ” 概 念 可知 ,两 个 
结 点 u.v 具有 双 似 关系 cx 和 w 的 所 有 进入 路 径 集合 相同 。 

需要 注意 的 是 ,在 StrongDataGuides 中 ,只 要 两 个 元 素 有 一 条 进入 路 径 相同 , 则 认为 这 
两 个 元 素 可 以 归并 。 如 果 以 双 似 关系 作为 结 点 归并 条 件 , 即 当 w、v 具有 双 似 关系 时 ,ww 和 ww 
才能 归并 ,那么 实际 上 就 得 到 比 StrongDataGuides 更 强 的 归并 条 件 : 结 点 uv 可 归并 < 
和 w 所 有 的 进入 路 径 都 相同 。 以 此 为 结 点 归并 条 件 得 到 的 结构 摘要 索引 就 是 1-index。 

l-index 的 实例 如 图 7-15 所 示 。 
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3. A(k)-index 

StrongDataGuides 和 1-index 中 采用 的 进入 路 径 都 是 基于 绝对 路 径 ,由 此 构建 的 索引 
能 够 得 到 可 靠 准 确 的 查询 结果 。 但 在 实际 应 用 中 ,需要 查询 的 内 容 通 常 都 是 XML 数据 片 
段 ,这 需要 通过 相对 路 径 的 方式 实现 ,上 述 两 种 索引 中 的 等 价 划 分 显得 过 于 严格 和 拘谨 。 因 
此 ,还 需要 考虑 两 个 结 点 元 素 之 间 的 局 部 等 价 概念 以 提高 查询 效率 。 为 此 引入 阶 双 似 概念 。 

两 个 结 点 ww 和 w 称 为 & 阶 双 似 ,并 记 为 uv ,如 果 满 足 如 下 条 件 。 

(1) us"u 当 且 仅 当 x 和 w 具有 相同 标签 。 

(2) uv 当 且 仅 当 wx 和:u* 同 时 ,wu 的 所 有 父 结 点 uo 和 wo 也 满足 wo 和 wo 

实际 上 ,如果 结 点 & 和 w 是 阶 双 似 的 , 则 表示 w 和 w 的 长 度 为 & 的 进入 路 径 集合 相 
同 , 从 而 将 全 局 进入 路 径 集合 扩展 到 局 部 进入 路 径 集合 ,由 此 产生 的 索引 结构 对 于 某 些 常用 
的 局 部 查询 是 相当 有 效 的 。 

A(k)-index 实例 如 图 7-16 所 示 。 


a 1 anl 1 
bz c 3 b 3 b 3 
dT?4 d 6 dT14,5 d 5 
e 8 © 和 ee “ 6, 7 e 67 
XML 数据 图 A(O) A(1) 


图 7-16 A(k)-index 实例 


4. APEX 

实际 应 用 中 ,数据 源 中 的 数据 会 经 常 发 生变 动 , 对 于 网 络 数据 尤其 如 此 ,因此 ,XML 数 
据 相 应 的 索引 结构 也 需要 发 生 改 变 。 从 更 新 效率 考虑 ,XML 中 不 同 结构 片段 在 实际 查询 
过 程 中 出 现 的 频率 不 同 。 针 对 那些 经 常 查询 的 XML 数据 片段 或 路 径 进 行 重点 关注 和 优先 
处 理 , 从 而 使 得 相应 的 结构 更 加 精细 和 准确 ; 而 对 于 相对 出 现 不 频繁 的 部 分 可 以 一 般 处 理 ， 
使 得 在 索引 能 够 较为 方便 容易 地 实施 更 新 。 这 种 具有 “ 自 适应 ”能 力 的 索引 结构 可 更 为 有 效 
地 完成 相应 的 数据 查询 和 数据 更 新 。 最 早 体现 出 这 种 自 适 应 考虑 的 XML 索引 可 能 就 是 
APEX 索引 (Adaptive Path Index for XML) 。 

(1) APEX 基本 组 成 。 一 个 图 形 结构 和 Hash 表 。 

图 结构 主要 保存 长 度 为 2 的 所 有 路 径 和 某 些 在 具体 应 用 中 经 常 出 现 的 路 径 。Hash 表 
将 某 些 查询 路 径 与 索引 中 结 点 相互 对 应 。 

在 APEX 中 ,对 于 已 保存 的 路 径 ,在 查询 时 只 需要 在 Hash 表 中 完成 查找 。 另 外 , Hash 
表 还 保存 有 结构 摘要 中 所 有 结 点 集 的 入 口 ,对 于 带 有 “//” 的 部 分 匹配 ,并 不 需要 进行 遍历 查 
找 , 从 而 提高 了 部 分 匹配 的 查找 效率 。 

(2) APEX 查询 过 程 。 首 先 , 确 定 查询 表达 式 中 是 否 有 已 经 保存 的 “频繁 "路径 。 如 果 
存在 , 则 直接 在 Hash 表 中 找到 查询 入 口 。 此 时 ,如 果 查 询 长 度 为 2, 则 就 由 图 结构 中 搜寻 精 
确 答案 。 其 次 ,如 果 查 询 长 度 大 于 2, 则 对 图 结构 中 某 些 相 关 结 点 结合 进行 连接 或 交 运 算 ， 
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并 记录 相应 查询 路 径 , 调 整 频繁 路 径 集合 ,然后 根据 频繁 路 径 集合 调整 整个 APEX 索引 。 
对 于 完全 非 频繁 路 径 查 询 ,也 可 仿照 上 述 处 理 。APEX 的 基础 是 频繁 路 径 集合 确定 ,这 通常 
是 采用 数据 挖掘 技术 由 查询 负载 中 获取 。 

5. D(k)-index 

作为 一 种 自 适应 索引 结构 ,D(k)-index 是 建立 在 A(k)-index 基础 之 上 的 。 

D(k)-index: 根据 阶 双 似 关系 概念 进行 结 点 的 归并 聚 类 ,但 并 不 事先 给 定 一 个 应 用 
于 全 局 的 & 值 ,不 同等 价 类 可 以 根据 不 同 的 & 值 进行 聚 类 。 对 于 频繁 和 重要 的 等 价 类 , 取 相 
应 的 较 高 的 值 ,以 提高 对 相似 度 的 要 求 ; 对 较 不 频繁 和 次 要 的 等 价 类 ,相应 值 可 取得 较 
小 。 这 里 等 价 类 的 重要 和 频繁 与 否 ,通常 根据 实际 应 用 确定 。 

这 种 根据 各 个 等 价 类 确定 的 值 称 为 等 价 类 中 元 素 的 局 部 相似 度 。 

一 般 而 言 ,具体 结 点 的 局 部 相似 度 可 以 根据 下 述 两 个 查询 路 径 和 结 点 结构 确定 。 

(1) 查询 路 径 : 对 于 长 度 为 p 的 查询 路 径 n,、… .nj ,使 得 对 于 路 径 中 出 现 的 每 个 结 点 ， 
k(ni) 宇 p ,对 于 路 径 中 不 出 现 的 结 点 (如 在 “//” 情 形 ) ,其 相似 度 & 一 0。 

(2) 结 点 结构 : 如 果 存 在 由 结 点 no 到 nn 的 连接 边 (zo ya) , 则 (10) 宇 k(n)。 

D(k)-index 相对 于 A(k)-index 降低 了 索引 规模 ,但 也 还 存在 无 关 索 引 结 点 过 于 细 化 
问题 。 无 关 数 据 结 点 过 度 细 化 、 父 结 点 相似 度 过 高 引起 的 结 点 过 度 细 化 和 短路 径 查询 效率 
不 高 等 都 是 DC(k)-index 的 不 足 。M(k)-index 和 M * (k)-index 就 是 针对 上 述 问 题 对 DCk) 
所 做 的 改进 ,这 里 就 不 再 予以 讨论 。 
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文本 数据 只 能 进行 基于 文件 名 的 查询 ,输出 结果 为 整个 文件 ,也 就 是 说 ,查询 不 能 深入 
到 文件 的 内 部 语义 内 容 。 而 数据 库 文件 的 查询 能 够 有 效 地 深入 到 相应 数据 文件 内 部 选取 所 
需要 的 内 容 , 甚 至 还 能 将 多 个 数据 文件 中 的 个 别 内 容 进行 整合 (如 RDB 中 连接 查询 等 ) 作 为 
查询 结果 输出 。 作 为 一 种 语义 标记 语言 ,XML 的 意义 就 在 于 能 够 将 文档 解构 为 各 个 具有 
“语义 ”的 单元 ,从 而 使 得 相应 查询 也 能 深入 相应 文本 内 部 进行 有 效 的 语义 内 容 抽取 。 由 此 
可 见 ,XML 的 查询 处 理 实际 上 可 以 看 作 是 隐 含 了 进行 数据 库 意 义 下 数据 查询 的 基础 ,这 
样 ,讨论 XML 数据 管理 技术 就 是 一 种 自然 而 然 的 事情 了 。 

XML 以 文档 形式 出 现 , 但 由 于 其 中 出 现 的 “元 素 " 具 有 由 套 特征 等 而 不 同 于 一 般 文档 
文件 。XML 是 一 种 半 结 构 化 数据 ,其 特点 之 一 就 是 描述 数据 模式 的 “元 数据 ”和 “实际 数 
据 ? 相 同 的 形式 ,可 以 只 用 一 般 的 半 结 构 化 数据 模型 子 以 描述 , 即 为 其 构建 相应 的 基于 有 向 
树 或 具 根 有 向 图 的 数据 模型 ,从 而 为 XML 数据 库 研发 提供 了 模型 方面 的 基础 支撑 。 

由 于 半 结 构 化 数据 的 数据 模式 可 以 从 已 有 数据 实例 抽取 ,同时 并 不 要 求 所 有 数据 实例 
都 具有 显 式 的 数据 模式 描述 ,因此 就 需要 区 分 满足 一 定 模 式 结 构 要 求 的 XML 文档 和 不 满 
足 模式 要 求 甚至 没有 模式 结构 要 求 的 XML 文档 。 数 据 库 管理 数据 的 一 个 基本 特征 就 是 需 
要 在 逻辑 层面 存在 基于 相应 数据 模型 的 数据 模式 ,并 以 此 来 对 各 种 各 类 的 数据 实例 进行 整 
体 的 统一 管理 ,因此 ,从 数据 库 角 度 而 言 , 需 对 XML 数据 也 构建 起 具有 数据 模式 与 数据 实 
例 意义 的 数据 关联 ,而 XML 标准 中 的 DID 和 XML Schema 就 起 到 了 数据 模式 的 作用 ,而 
满足 它们 规范 要 求 好 制约 的 XML 文档 相当 于 相应 的 数据 实例 。XML 文档 可 以 使 用 DTD 





或 者 Schema 来 表示 该 文档 具有 哪些 元 素 ,元 素 之 间 具 有 怎样 的 层次 ( 嵌 套 ) ,每 个 元 素 具 有 
怎样 的 属性 等 。DTD 具有 较 多 局 限 性 ,Schema 本 身 呈 现 XML 文档 风格 ,具有 更 强 表现 能 
力 ,但 相对 比较 复杂 。 符 合 XML 语法 规范 的 称 为 良好 XML 文档 ,符合 DTD 或 Schema 模 
式 要 求 的 称 为 有 效 的 XML 文档 。 

看 待 XML 数据 管理 有 两 种 认 知 角度 。 一 种 是 将 XML 看 作文 档 , 作 为 文件 系统 进行 管 
理 , 这 主要 适用 于 难以 提取 或 者 没有 必要 提取 统一 XML 模式 的 一 般 情形 ,如 人 们 浏览 的 网 
页 等 。 另 一 种 是 将 XML 看 作 半 结构 化 数据 ,这 主要 是 一 些 XML 模式 相对 固定 而 且 数据 量 
巨大 的 一 些 场合 ,如 人 事 档案 管理 和 医疗 数据 管理 等 。 

结构 化 数据 是 将 数据 内 容 和 数据 模型 分 离开 来 进行 研究 和 处 理 , 如 关系 数据 库 中 的 数 
据 表 数据 和 元 数据 。 半 结构 化 数据 是 将 数据 内 容 和 数据 模式 融合 一 体 ,统一 进行 描述 和 处 
理 。 结 构 化 数据 有 利于 数据 操作 的 设计 与 实现 , 半 结 构 化 数据 在 应 用 中 则 更 加 彰显 其 灵活 
性 。 从 数据 观点 出 发 ,XML 就 是 半 结 构 化 数据 的 典型 代表 ,可 以 按照 一 般 半 结构 化 数据 模 
型 OEM 进行 建 模 ,但 相应 的 数据 查询 较为 复杂 。 

将 XML 建 模 为 半 结 构 化 数据 的 树 形 或 图 形 结构 具有 两 方面 的 意义 。 

1) 依据 树 或 图 的 性 质 进行 遍历 查询 

此 时 主要 的 查询 语言 有 XPath、XSLT 和 XQuery。 其 中 ,XPath 是 路 径 表达 式 的 一 种 
新 标准 ,允许 使 用 类 似 于 文件 系统 中 路 表达 式 来 指定 所 需要 的 元 素 ; XSLT 提供 了 强大 的 
数据 查询 和 样式 表 转 换 功 能 ,应 用 相当 广泛 ; XQuery 是 W3C 开发 的 XML 查询 语言 ,其 风 
格 与 SQL 相近 ,可 以 用 于 XML 文档 ,也 可 以 用 于 XML 数据 库 查询 。 有 人 预言 XQuery 将 
可 能 成 为 XML 数据 库 中 SQL 。 

XSL、XSLT、XPath 和 XQuery 之 间 的 关系 如 图 7-17 所 示 。 




















样式 单 系统 XSL | 数据 查询 语言 XQuilt | 
XSLT 是 XSL 中 XQuery 起 源 于 
转换 语言 部 分 | xsLT XQuery XQuilt 
XPath 是 XSLT XPath 是 XQuery 的 
的 一 个 模块 严格 句法 子 集 


XPath2.0 





图 7-17 XSL、XSLT、XPath 和 XQuery 之 间 的 关系 


2) 基于 索引 技术 的 非 遍历 查询 

XPath 和 XQuery 可 以 通过 DOM 和 SAX 对 XML 文档 进行 遍历 查询 ,但 更 为 有 效 的 
存储 与 查询 是 通过 XML 数据 索引 的 途径 。XML 查询 需要 得 到 的 信息 较 多 ,但 最 主要 的 是 
结构 信息 查询 。 查 询 表 达 式 基于 XPath 的 标签 路 径 表 达 式 ,但 查询 结果 实际 上 是 需要 满足 
祖先 /后 裔 等 关系 的 结 点 ,这 就 需要 对 结 点 路 径 表 达 式 进行 搜索 。 一 条 标签 路 径 表 达 式 可 以 
对 应 多 条 不 同 的 结 点 路 径 表 达 式 ,这 就 提供 了 对 标签 路 径 表达 式 进 行 约 简 归 并 以 建立 结 点 
摘要 类 索引 的 可 能 性 ,由 此 可 以 建立 起 XML 结构 摘要 类 索引 。XML 数据 树 ( 图 ) 中 的 结 点 
没有 常规 意义 下 的 顺序 ,但 可 以 进行 某 种 遍历 以 建立 适当 顺序 ,这 种 排序 需要 包含 结 点 的 位 
置 与 相互 关系 信息 ,基于 这 种 排序 就 可 以 赋予 每 个 结 点 一 个 编码 。 对 于 XML 数据 树 ( 图 ) 
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对 应 的 编码 集合 ,可 以 按照 B* 树 或 其 他 经 典 方式 进行 索引 ,由 此 可 以 建立 起 XML 结 点 记 
录 类 索引 。 数 据 索引 是 XML 数据 库 技术 中 的 重要 课题 之 一 。 

XML 数据 库 是 在 XML 数据 处 理 基 础 上 发 展 起 来 的 。XML 数据 库 有 两 个 研究 途径 ， 
一 是 通过 研究 XML 数据 与 传统 数据 (关系 数据 或 对 象 数 据 ) 之 间 的 相互 映射 关系 ,拓展 关 
系数 据 库 系 统 或 面向 对 象 数据 库 的 相应 功能 ,使 其 能 够 进行 XML 数据 的 管理 与 查询 ,这 就 
是 使 能 XML 数据 库 ; 二 是 纯粹 由 XML 本 身 具 有 状况 出 发 ,充分 考虑 到 XML 数据 特点 ,以 
一 种 自然 畅 顺 的 风格 与 方式 处 理 XML 数据 ,从 各 个 方面 较 好 地 支持 XML 数据 的 存储 与 查 
询 ,这 就 是 原生 XML 数据 库 。 
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进入 新 世纪 以 来 ,无线 通 信 技 术 、 卫 星 全 球 定位 系统 和 无 线 互联 网 技术 得 到 了 快速 的 发 
展 与 普及 ,跟踪 、 存 储 和 提供 移动 对 象 的 位 置信 息 服务 成 为 可 能 。 同 时 计算 机 技术 自身 飞速 
发 展 和 计算 机 应 用 的 不 断 扩展 带 来 计算 设备 的 小 型 化 和 便携 装置 的 普及 化 , 随 之 而 来 的 是 
计算 技术 从 静止 的 单一 桌面 框架 走向 万 千 的 移动 用 户 , 信 息 交 互 设备 从 专业 应 用 走向 了 普 
通 人 的 日 常生 活 。 其 中 ,移动 对 象 的 连续 运动 对 数据 库 技术 提出 了 新 的 需求 和 挑战 ,并 迅速 
成 为 新 世纪 数据 库 领 域 的 一 个 研究 热点 。 实 际 上 ,在 当今 世界 ,人 们 人 迫切 需要 能 在 任何 时 间 
和 任何 地 点 ,通过 任何 方式 来 接收 、 查 询 和 处 理 相 关 数 据 。 无 线 传感器 网 络 和 定位 技术 (如 
GPS) 的 快速 发 展 ,众多 具有 定位 功能 的 无 线 手持 设备 和 车 载 设备 快速 普及 ,使 得 许多 新 的 
应 用 产生 大 量 的 运动 数据 信息 ,这 些 随 时 间 变 化 的 移动 位 置 数据 需要 有 相应 的 数据 库 系 统 
进行 有 效 管 理 。 在 传统 数据 库 中 ,如 果 数 据 没有 显 式 更 新 ,数据 属性 值 就 会 保持 恒定 ,因此 
难以 高 效 地 管理 通常 在 后 台 连 续 变化 的 动态 位 置信 息 , 由 此 移动 对 象 数 据 库 (Moving 
Objects Database， MOD) 技 术 也 就 应 运 而 生 并 得 到 不 断 发 展 , 其 目标 是 在 数据 库 中 高 效 地 
管理 移动 对 象 的 位 置 及 其 相关 数据 。MOD 是 数据 库 技术 的 扩展 ,用 于 在 数据 库 中 支持 移 
动 对 象 位 置信 息 的 存储 和 管理 。 


8.1 MOD 概述 


MOD 研究 起 源 于 20 世纪 90 年 代 中 期 。 移 动 对 象 随 着 时 间 演 进而 产生 地 理 空间 位 置 
上 的 变化 ,从 多 辑 上 来 看 ,MOD 属于 时 空 数据 库 的 范畴 ,也 可 认为 来 源 于 描述 地 理 空间 数 
据 的 SDB 和 处 理 随 时 间 变 化 数据 的 TDB 的 整合 。 移 动 对 象 的 特点 是 其 位 置信 息 数据 随时 
间 演 进 不 断 连续 改变 ,因此 MOD 的 基本 点 就 是 关注 移动 点 地 理 空间 位 置 随时 间 的 连续 变 
化 ,而 早期 时 空 数据 库 只 支持 地 理 空间 位 置 的 离散 变化 。 事 实 上 ,当前 MOD 技术 已 经 成 为 
时 空 数据 库 重 要 研究 课题 之 一 ,Erwic 等 人 甚至 直接 认为 时 空 数据 库 的 本 质 就 是 关于 移动 
对 象 的 数据 库 。 


8.1.1 移动 对 象 数 据 


所 有 客观 事物 都 是 发 展 变化 的 ,但 由 于 认识 论 和 技术 处 理 的 层次 递 进 性 ,人 们 研究 其 性 
质 和 展开 其 应 用 通常 分 为 两 步 。 首 先是 将 其 “看 作 ” 静 态 的 , 即 只 考虑 “当时 当地 ”的 “快照 ”; 
其 次 再 继续 深入 扩展 ,将 所 有 “快照 ”整合 处 理 , 将 其 作为 一 个 发 展演 变 的 整体 进行 研究 。 着 
眼 于 事务 特性 的 关系 数据 和 着 眼 于 空间 属性 的 空间 数据 都 是 基于 “静态 ”的 情形 ,如 关系 数 
据 随 时 间 变 化 就 是 前 述 的 时 态 ( 关 系 ) 数 据 , 空 间 数据 随时 间 发 生变 化 就 是 时 空 数 据 , 这 都 是 
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一 种 基于 客观 事物 “动态 ”的 情形 。 静 态 是 动态 的 基础 ,动态 是 静态 的 深化 ,因此 时 态 数据 和 
时 空 数据 管理 就 构成 高 级 数据 库 技术 的 基本 内 容 之 一 。 

如 前 所 述 , 空 间 对 象 可 分 为 只 有 位 置 的 “点 ”对 象 和 既 有 位 置 又 有 形状 的 “区 域 ” 对 象 两 
种 情形 。 着 眼 于 随 着 时 间 演 进 其 位 置 与 形状 变化 的 空间 对 象 就 是 时 空 数据 对 象 ,研究 时 空 
对 象 数 据 管理 的 就 是 时 空 数据 库 。 

空间 数据 的 基本 特征 是 其 位 置 和 形状 ,动态 空间 对 象 是 其 位 置 和 形状 分 别 或 同时 都 随 
时 间 演 进而 发 生变 化 。 位 置 的 变化 就 是 对 象 的 “运动 或 “移动 "具有 “位 置 " 变 化 的 空间 对 
象 通常 称 为 移动 对 象 ,或 者 说 ,着 眼 于 位 置 变化 的 时 空 对 象 就 是 移动 对 象 ,以 移动 对 象 数 据 
为 研究 主体 的 时 空 数据 库 就 是 MOD。 时 空 数据 库 是 SDB 与 TDB 的 整合 ,而 从 理论 渊源 上 
考虑 ,MOD 是 时 空 数据 库 的 特例 。 

1. 移动 点 对 象 与 区 域 对 象 

作为 位 置 不 断 随 着 时 间 变 化 的 空间 对 象 ,移动 对 象 的 变化 可 以 是 离散 的 ,也 可 以 是 连续 
的 。 从 几何 特征 考虑 ,移动 对 象 可 以 分 为 两 大 类 : 移动 点 对 象 与 移动 区 域 对 象 。 

(1) 移动 点 对 象 : 随时 间 演 进 只 考虑 其 地 理 位 置信 息 变 化 的 客观 实体 。 

例如 ,行驶 中 的 汽车 飞机 和 舰 船 ,位 置 不 断 发 生 改 变 的 移动 手机 用 户 、 具 有 无 线 通 信 功 
能 的 笔记 本 电脑 ,在 交通 线 上 运行 的 出 租车 和 救护 车 、 敌 方 来 袭 过 程 中 的 巡航 导弹 和 禾 炸 机 
群 及 逃跑 过 程 中 的 恐怖 分 子 等 。 这 类 移动 对 象 的 基本 特征 是 人 们 只 关注 对 象 相 对 于 某 一 坐 
标 原点 的 地 理 位 置 , 即 移动 点 对 象 是 对 客观 实体 在 空间 中 地 理 位 置信 息 的 抽象 。 

(2) 移动 区 域 对 象 : 随时 间 演 进 其 地 理 位 置 和 几何 形状 都 发 生变 化 的 客观 实体 。 

例如 ,运动 中 的 云层 和 风暴 .迁徙 中 的 动物 种 群 和 不 断 推进 的 沙漠 、 变 动 中 的 冰川 和 植 
被 区 域 燃烧 中 的 森林 火灾 范围 和 传播 中 的 疾病 区 域 等 。 移 动 区 域 对 象 的 基本 特征 是 着 眼 
于 空间 对 象 位 置 变化 的 同时 还 必须 考虑 其 形状 的 变化 , 即 移动 区 域 对 象 是 对 客观 实体 在 空 
间 中 地 理 位 置 和 几何 形状 信息 的 整合 抽象 ,描述 实体 的 移动 .扩张 和 收缩 。 

从 数据 管理 角度 而 言 ,空间 对 象形 状 描述 相当 困难 ,同时 考虑 空间 对 象 的 位 置 与 形状 变 
化 则 更 具 挑 战 性 ,当前 MOD 主要 研究 的 是 移动 点 对 象 .本 章 中 所 涉及 移动 对 象 通常 都 是 指 
移动 点 对 象 。 

2. 移动 对 象 数据 特征 

相对 于 常规 数据 ,移动 对 象 数据 具有 下 述 基本 特点 。 

(1) 多 样 性 与 复杂 性 。 通 过 SDB 技术 已 经 知道 ,空间 对 象 表示 的 信息 特别 是 其 几何 位 
置信 息 呈 现 出 多 样 化 特点 ,而 空间 对 象 之 间 关 系 信息 包括 位 置 关 系 . 序 关系 和 拓扑 关系 等 。 
同时 ,在 TDB 技术 中 ,时 间 标 签 (主要 是 时 间 期 间 ) 之 间 也 呈现 出 较为 复杂 的 情形 。 作 为 一 
种 特定 时 空 对 象 ,移动 对 象 数据 实际 上 可 看 作 空 间 数据 和 时 态 数据 的 整合 ,同时 移动 对 象 还 
需要 具体 处 理 连续 变动 的 位 置信 息 ,因此 ,其 表示 的 内 容 自 然 更 加 多 样 ,彼此 间 时 空 关系 的 
描述 会 更 为 复杂 。 

(2) 移动 对 象 随机 性 。 移 动 对 象 的 移动 具有 随机 性 和 规律 性 的 双重 特征 。 例 如 ,出 租 
汽车 根据 乘客 需要 到 达 指 定 地 点 ,而 不 同 乘客 要 去 的 地 点 都 有 所 不 同 ,所 以 从 整体 上 来 看 ， 
当 出 租车 在 运营 中 并 不 总 是 能 确定 出 租车 的 下 一 站 要 驶 向 哪里 ,这 就 表现 为 随机 性 。 另 外 ， 
出 租车 虽然 不 确切 知道 下 一 步 要 去 哪里 ,但 根据 交通 需求 的 特点 ,一 段 时 间 ( 如 数 周 、 数 月 ) 
出 租车 的 行驶 轨迹 可 能 存在 某 种 程度 的 统计 规律 性 ,这 也 是 交通 预测 和 规划 等 的 重要 依据 。 


(3) 静止 和 运动 交织 性 。 任 何 移动 对 象 都 具有 一 个 起 点 和 终点 ,都 具有 静止 和 运动 两 
种 基本 的 状态 。 例 如 ,车 辆 运行 过 程 中 出 现 交通 拥堵 或 车 辆 故障 等 ,这 些 都 是 运动 过 程 中 可 
能 出 现 的 静止 情形 。 随 着 运行 过 程 中 静止 与 运动 的 随机 交 蔡 ,移动 对 象 的 运动 速度 .方向 和 
行驶 轨迹 等 运动 状态 也 会 随机 变化 。 

(4) 不 精确 和 不 确定 性 。 首 先 ,移动 对 象 运动 是 连续 的 ,计算 机 却 只 能 按照 离散 方式 进 
行 数 据 的 存储 和 计算 ,因此 需要 进行 采样 。 由 于 采集 设备 精度 的 限制 ,移动 对 象 存储 的 位 置 
信息 在 空间 上 与 实际 的 位 置 上 会 存在 一 定 的 偏差 。 其 次 ,信息 传输 的 延 时 和 通信 处 理 的 开 
销 等 影响 ,移动 对 象 存储 的 具体 信息 与 实际 的 位 置 在 时 间 上 总 是 有 滞后 。 另 外 ,如 上 所 
述 ,移动 对 象 的 运动 具有 各 种 不 可 预测 的 随机 性 。 最 后 ,移动 对 象 不 同 于 传统 数据 库 的 
突出 特征 是 可 以 管理 当前 与 未 来 位 置信 息 ,这 在 本 质 上 是 一 种 基于 预测 技术 的 管理 , 预 
测 必然 会 伴随 着 不 精确 性 与 不 确定 性 。 因 此 :不管 采 用 哪 种 精确 度 ” 的 位 置 管理 及 位 置 
信息 更 新 策略 ,由 于 移动 对 象 本 身 特征 所 规定 ,移动 对 象 数据 库 中 保存 的 位 置信 息 与 移 
动 对象 的 实际 位 置 总 会 存在 一 定 的 差异 ,在 逻辑 上 都 表现 为 某 种 程度 的 不 精确 性 和 不 确 
定性 。 


8.1.2 数据 类 型 和 数据 管理 


随 着 计算 机 技术 、Internet 技术 、 无 线 通信 移动 定位 和 GIS(Geographic Information 
System) 技 术 的 进一步 发 展 ,通过 由 移动 通信 和 互联 网 融合 的 移动 环球 网 (mobile web) ,用 
户 可 以 在 任何 时 间 和 地 点 获得 移动 用 户 所 在 位 置 的 相关 服务 ,能 够 实现 对 移动 对 象 的 定位 
及 追踪 , 即 定位 服务 (Location Based Service, LBS) ,由 此 产生 了 大 量 移动 对 象 数据 需要 进 
行 存储 和 管理 。MOD 正 是 在 这 样 的 应 用 驱动 中 产生 和 发 展 起 来 的 。MOD 记录 和 管理 移 
动 对象 在 不 同时 刻 的 位 置信 息 ,用 户 可 以 在 数据 库 中 查询 移动 对 象 的 过 去 \ 现 在 与 未 来 时 刻 
的 状态 信息 。 

1. 移动 对 象 数据 类 型 与 存储 

如 前 所 述 ,在 MOD 中 ,移动 对 象 通常 都 是 移动 点 对 象 ,而 移动 对 象 数据 也 是 指 移动 点 
对 象 的 相关 位 置 数据 信 息 。 这 种 位 置 数据 信息 从 逻辑 上 可 以 分 为 空间 位 置 点 和 空间 运动 轨 
迹 两 种 基本 类 型 ,它们 都 可 以 借助 于 关系 表 或 其 他 方式 进行 有 效 存储 。 

1) 位 置 点 数据 类 型 及 存储 

空间 点 的 位 置 数据 通过 对 移动 对 象 在 移动 过 程 中 的 采样 获取 ,每 个 位 置 点 数据 包括 X 
及 Y 坐标 、 运 动 方向 速度 和 时 间 等 信息 元 素 。 这 些 信息 可 作为 一 个 元 组 按照 采样 顺序 依 
次 存储 在 RDB 中 。 由 此 MOD 存储 了 一 个 移动 对 象 的 所 有 位 置 点 序列 数据 。 借 助 于 RDB 
对 原始 数据 进行 存储 ,灵活 性 好 ,可 满足 多 种 需要 。 但 当 移动 对 象 数量 很 大 ,如 一 个 城市 的 
所 有 出 租车 ,系统 需 存 储 的 数据 量 就 会 非常 庞大 。 

2) 运动 轨迹 数据 类 型 及 存储 

移动 对 象 的 各 个 移动 位 置 点 从 整体 上 来 看 就 形 了 一 条 运动 轨迹 ,因此 在 技术 上 可 将 整 
条 运动 轨迹 作为 存储 单元 而 不 仅 是 只 考虑 一 个 一 个 的 位 置 点 数据 ,这 就 是 移动 对 象 数据 的 
基于 运动 轨迹 数据 存储 。 

在 MOD 中 ,移动 对 象 的 运动 轨迹 也 称 为 轨迹 线 ,并 按照 轨迹 线 表示 的 不 同 分 为 移动 函 
数 存 储 和 移动 轨迹 存储 两 种 情形 。 


移动 对 邓 数 据 府 
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(1) 移动 函数 存储 。 通 过 构造 移动 对 象 运动 函数 表示 对 象 运 动 轨迹 。 运 动 函 数 采用 普 
通 的 函数 方法 ,在 有 效 的 时 间 内 推算 出 对 象 的 位 置 和 相应 的 运动 类 型 。 通 过 运动 参数 描述 
了 运动 特性 ,如 移动 对 象 的 开始 位 置 .运动 速度 及 运动 方向 等 。 这 样 ,对 于 运动 比较 规律 的 
移动 对 象 ,如 具有 固定 运行 路 线 的 飞机 、 船 舶 和 列车 等 ,通过 存储 比较 少量 的 运动 参数 就 能 
满足 存储 历史 轨迹 数据 的 需要 ,同时 也 预测 移动 对 象 未 来 的 位 置 。 

(2) 移动 轨迹 存储 。 将 移动 对 象 各 个 空间 位 置 点 用 直线 段 顺 次 相连 组 成 一 条 由 折线 段 
组 成 的 运动 轨迹 。 在 分 析 移 动 轨迹 各 时 间 段 的 情况 时 可 将 移动 轨迹 分 段 处 理 。 分 段 的 依据 
可 以 是 移动 对 象 方向 的 改变 或 状态 的 变化 ,也 可 以 是 按照 确定 的 时 间 间 隔 进行 采样 。 移 动 
轨迹 能 够 较 好 地 反映 移动 对 象 的 运动 情形 ,通常 可 作为 移动 对 象 查询 等 的 基本 单位 , 相 比 于 
空间 位 置 点 数据 存储 ,移动 轨迹 需要 存储 的 数据 量 可 以 大 大 减少 ,有 利于 提高 系统 性 能 。 

2. 移动 对 象 数据 管理 环境 

移动 对 象 数据 产生 于 移动 计算 的 环境 中 ,与 基于 固定 网 络 的 传统 分 布 计算 环境 相 比 , 移 
动 计算 环境 具有 其 自身 的 一 些 特点 。 

(1) 设备 移动 性 。 移 动 计算 环境 最 突出 的 特征 是 相关 设备 随时 间 演 进 不 断 移动 ,一 个 
移动 设备 需要 在 不 同 的 地 理 位 置 点 随时 联通 所 需 网 络 , 同 时 在 移动 过 程 中 也 需要 保持 相应 
的 网 络 连 接 。 

(2) 频繁 间断 性 。 移 动 设备 在 移动 过 程 中 ,由 于 使 用 方式 .电源 供给 、 无 线 通信 费用 和 
网 络 条 件 等 因素 的 限制 ,一 般 不 能 采用 持续 联网 的 工作 方式 ,而 是 主动 或 被 动 式 的 间 砍 性 人 
网 与 断 接 。 

(3) 低 带宽 性 。 与 固定 网 络 相 比 ,无 线 连 接 的 带宽 要 小 许多 。 

(4) 网 络 通信 非 对 称 性 。 由 于 物理 通信 媒介 的 限制 ,一 般 无 线 通信 都 是 非 对 称 的 , 即 在 
固定 服务 器 结 点 可 拥有 强大 的 发 送 设备 ,而 移动 设备 发 送 能 力 非常 有 限 ,由 此 导致 下 行 链 路 
(服务 器 到 移动 设备 ) 的 通信 带宽 与 代价 和 上 行 链 路 (移动 设备 到 服务 器 ) 差 别 较 大 。 

(5) 低 可 靠 性 。 与 固定 网 络 相 比 ,无 线 通信 网 络 可 靠 性 较 低 ,容易 受到 各 类 白 、 黑 干扰 
而 出 现 各 类 网 络 通信 故障 。 

上 述 情形 将 会 导致 基于 移动 计算 环境 的 移动 对 象 数 据 库 应 用 系统 具有 不 同 于 常规 数据 
库 应 用 系统 的 基本 特征 。 一 个 简化 的 MOD 应 用 系统 架构 如 图 8-1 所 示 , 它 通常 包括 移动 
对 象 客户 端 和 位 置 管理 服务 器 两 个 主要 部 分 。 
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图 8-1 基于 移动 计算 环境 的 MOD 应 用 系统 架构 


(1) 移动 对 象 客户 端 : 例如 ,使 用 移动 手机 通过 位 置 接收 装置 (GPS 接收 器 ) 获 取 自 身 
位 置 数据 ,再 通过 无 线 通信 网 络 向 服务 器 报告 其 位 置 数 据 。 

(2) 位 置 管理 服务 器 : 应 用 服务 器 接收 这 些 数据 并 将 其 存储 在 MOD 中 。 同 时 ,服务 器 
还 将 存储 其 相关 数据 (如 速度 或 方向 信息 ) 以 预测 移动 对 象 的 未 来 位 置 。 

移动 对 象 客户 端 可 通过 无 线 通信 网 络 向 服务 器 发 出 位 置 相 关 的 查询 请 求 , 位 置 应 用 服 
务 器 利用 移动 对 象 数据 库 和 地 理 信 息 数据 库 中 的 信息 进行 查询 处 理 后 再 将 结果 通过 无 线 通 
信 网 络 返 回 给 移动 对 象 。 

3. MOD 主要 技术 领域 

目前 ,移动 对 象 管理 主要 研究 课题 和 技术 领域 有 下 述 几 个 方面 。 

1) 位 置 建 模 与 数据 索引 

(1) 位 置 建 模 。 为 了 对 移动 对 象 的 位 置 进行 有 效 的 管理 , MODS 必须 能 够 准确 地 获取 
和 存储 移动 对 象 的 当前 位 置信 息 ,这 就 涉及 移动 对 象 数据 的 逻辑 表示 与 存储 结构 ,因此 需要 
建立 有 效 的 位 置 数据 信息 的 描述 与 管理 模型 。 

(2) 数据 索引 。MOD 管理 着 数量 非常 庞大 的 移动 对 象 数据 ,但 作为 一 种 新 型 数据 库 ， 
目前 并 没有 如 同 RDB 那样 的 查询 优化 技术 ,当然 也 不 能 只 进行 遍历 访问 查询 。 如 同 其 他 非 
传统 数据 库 ( 如 XML 数据库) 那样 ,为 了 减 小 搜索 空间 和 提高 查询 效率 ,就 只 能 借助 于 数据 
索引 技术 。 移 动 对 象 数据 索引 技术 是 MOD 领域 中 一 个 充满 挑战 性 的 研究 领域 ,有 许多 开 
放 性 课题 尚 待 进一步 深入 探讨 。 

2) 数据 查询 与 不 确定 性 处 理 

(1) 数据 查询 。MOD 中 的 查询 目标 分 为 两 种 ,一 种 是 移动 对 象 (如 汽车 ,移动 用 户 等 )， 
另 一 种 是 静态 空间 对 象 (如 旅馆 、 医 院 等 ) ,这 两 类 数据 查询 需要 各 自 相 应 的 索引 结构 的 支 
持 。MOD 数据 查询 通常 都 具有 位 置 相 关 的 特性 , 即 查询 结果 依赖 于 移动 对 象 所 处 位 置 , 同 
一 查询 请 求 , 如 果 提交 时 间 及 地 点 不 同 ,返回 结果 也 将 不 同 。 典 型 的 查询 包括 区 域 查询 ( 查 
询 某 个 时 间 段 处 于 某 个 地 理 区 域 的 移动 对 象 )、KNN 查询 (查询 离 某 一 点 最 近 的 天 个 移动 
对 象 ) 及 连接 查询 (查询 满足 条 件 的 移动 对 象 组 合 ) 等 。 

(2) 不 确定 性 表示 及 处 理 。 如 前 所 述 ,移动 对 象 位 置 数据 管理 本 质 上 具有 不 精确 性 和 
不 确定 性 。 不 管 采用 哪 种 位 置 管理 及 位 置信 息 更 新 策略 ,MOD 中 保存 的 位 置信 息 与 移动 
对 象 实际 位 置 情况 都 会 存在 一 定 偏差 。 例 如 ,对 于 周期 性 位 置 更 新 方法 ,位 置 数据 更 新 是 周 
期 性 完成 的 ,在 每 个 更 新 周期 内 ,数据 库 中 位 置 数据 不 变 , 而 实际 上 移动 对 象 可 能 已 经 在 此 
期 间 离开 了 原来 位 置 。 将 位 置 表示 为 时 间 的 函数 同样 也 存在 位 置 的 不 确定 性 ,位 置 函 数 仅 
仅 近 似 地 刻画 了 实际 位 置 变化 。 此 外 ,系统 通过 设 定 阔 值 的 方式 来 减少 位 置信 息 更 新 代价 
的 策略 ,实际 上 也 增加 了 位 置 的 不 确定 性 。 如 何 明确 表示 这 些 不 确定 性 以 进入 计算 机 进行 
存储 管理 ,如 何 根据 需要 获取 数据 处 理 后 的 不 确定 性 度量 以 投入 实际 应 用 ,这 些 都 是 MOD 
技术 的 基本 研究 课题 之 一 。 

3) 位 置 数据 更 新 

随 着 无 线 通信 技术 与 全 球 定位 技术 的 发 展 , 基 于 位 置 的 服务 能 够 向 用 户 提供 可 靠 的 位 
置 服务 信息 并 得 到 广泛 应 用 。 但 在 基于 位 置 的 应 用 服务 系统 中 存在 移动 对 象 频繁 和 大 量 的 
数据 更 新 ,如 何 有 效 管 理 移动 对 象 位 置 的 更 新 也 就 成 为 MOD 的 重要 特征 和 关键 技术 。 

为 有 效 地 减少 移动 对 象 位 置 存储 的 更 新 频率 ,提高 通信 效率 与 提供 精确 的 位 置 服务 ,在 
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对 移动 对 象 实施 更 新 的 过 程 中 ,更 新 开销 是 衡量 移动 对 象 位置 更 新 系统 优 劣 的 基本 指标 , 主 
要 包括 下 述 内 容 。 

(1) 网 络 通信 开销 : 由 于 通信 网 络 带宽 限制 ,移动 对 象 频繁 地 更 新 会 加 重 网 络 开销 甚 
至 导致 网 络 通信 难以 实施 。 

(2) 服务 器 端 开销 : 传统 数据 库 管理 系统 难以 支持 大 量 频繁 更 新 ,如 果 使 用 RDB 等 对 
移动 对 象 位 置 更 新 的 支持 就 必须 付出 巨大 额外 开销 。 

(3) 客户 端 开 销 : 由 于 通信 网 络 带宽 的 限制 ,移动 对 象 客户 端 必须 执行 复杂 计算 ,但 移 
动 设备 电量 有 限 ,处 理 能 力 有 限 ,难以 实施 有 效 的 数据 更 新 。 

讨论 移动 对 象 位 置 数据 更 新 机 制 需要 对 移动 对 象 位 置 数据 信息 进行 形式 化 描述 。 

(1) 移动 对 象 的 形式 化 描述 。 可 以 采用 如 下 方式 对 移动 对 象 位 置信 息 进 行 描述 和 
定义 。 

@ 移动 对 象 : 设 二 维 空间 XXY 位 置 点 p= 二 (zx,y) 集 合 记 为 P, 时 间 域 记 为 T, 则 三 维 
时 空 XYXT 中 移动 对 象 MO 表示 为 三 元 组 MO=(p,v,t)。 其 中 pEP 表示 移动 对 象 初 
始 位 置 ,v= 二 (v, ,v,) ER? 表示 移动 对 象 速度 矢量, 1:t€ 丁 表示 p 与 v 对 应 时 间 。 

@ 移动 对 象 运动 方向 : 运动 方向 与 正 北 方向 即 指向 地 球 北 极 方向 的 夹 角 。 

@ 服务 对 象 : 移动 对 象 服务 器 发 往 客户 端的 服务 信息 ,并 记 为 SO= (POLICY ,OB， 
THR)。POLICYE {'POINT','VECTOR') 为 更 新 策略 ,OBE (MO } 为 移动 对 象 位 置 在 服 
务 器 上 的 表示 方式 ,THRE (THRESHOLD} 是 移动 对 象 更 新 闻 值 。 

(2) 移动 对 象 位 置 更 新 策略 。 位 置 数据 更 新 策略 以 移动 对 象 轨迹 建 模 为 基础 。 

Q@ 基于 移动 点 建 模 更 新 : 将 移动 对 象 的 位 置 建 模 为 固定 位 置 点 的 时 间 函 数 ,通常 只 包 
含 移动 对 象 位 置 点 信息 。 基 于 点 移动 位 置 更 新 策略 , 即 点 更 新 策略 (POINT POLICY) , 通 
常 使 用 常量 位 置 函数 预测 移动 对 象 在 未 来 某 一 时 刻 的 位 置 ,如 果 当 前 位 置 值 超过 预先 设 定 
闷 值 就 发 起 一 个 更 新 。 点 更 新 策略 将 移动 对 象 的 运动 位 置信 息 表示 成 一 系列 跳跃 的 点 ,是 
各 类 更 新 策略 的 基础 。 基 于 点 位 置 更 新 策略 实现 比较 简单 ,适合 运动 方向 难以 预知 的 移动 
对 象 , 如 行人 等 。 

@ 基于 矢量 建 模 更 新 : 将 移动 对 象 的 位 置 建 模 为 随时 间 变 化 的 线性 函数 ,其 中 包括 移 
动 对 象 运动 的 位 置 .速度 与 方向 等 多 方面 信息 。 基 于 矢量 (如 速度 ) 的 移动 对 象 位 置 更 新 策 
略 , 即 矢量 更 新 策略 (VECTOR POLICY) ,通常 使 用 随时 间 变 化 的 线性 函数 预测 移动 对 象 
在 未 来 某 一 时 刻 的 位 置 。 移 动 对 象 从 最 近 更 新 处 做 匀速 直线 运动 直到 再 次 发 生 更 新 ,移动 
对 象 的 运动 表示 为 跳跃 的 矢量 。 基 于 矢量 位 置 更 新 策略 适合 于 在 确定 线路 上 做 近似 分 段 直 
线 运动 的 移动 对 象 ,如 汽车 、 飞 机 和 高 铁 列车 等 。 

(3) 位 置 更 新 体系 。 位 置 更 新 体系 由 移动 对 象 客户 端 ,无 线 通信 网 络 与 移动 对 象 服务 
器 等 三 部 分 组 成 。 为 描述 确定 ,假定 移动 对 象 客户 端 安装 GPS 定位 器 ,移动 对 象 客户 端 与 
移动 对 象 服务 器 通过 无 线 通信 网 络 相连 接 ,发 生 断 线 时 ,移动 对 象 服务 器 将 采用 适当 方式 解 
决 ,同时 ,移动 对 象 通过 自身 安装 的 GPS 定位 器 每 隔 1 秒 报告 一 次 当前 实际 位 置 。 由 于 对 
当前 实际 位 置 测定 通常 都 存在 一 定 误差 ,此 时 如 果 移 动 对 象 客户 端 获得 的 位 置 数据 比 服务 
器 端 计算 出 来 的 更 为 精确 , 则 客户 端 就 采用 由 GPS 定位 器 获得 的 精确 位 置 ; 然后 ,移动 对 
象 服务 器 等 待 接收 客户 端 更 新 请 求 。 客 户 端 向 服务 器 发 送 更 新 记录 包含 当前 位 置 值 及 其 他 
运动 数据 ,依据 这 些 数据 ,移动 对 象 服务 器 就 可 预测 移动 对 象 运动 趋势 及 未 来 某 个 时 刻 位 


置 。 移 动 对 象 更 新 频率 取决 于 对 位 置信 息 精 度 的 需求 , 何 时 向 移动 对 象 服务 器 发 送 更 新 请 
求 通常 由 客户 端 确定 。 移 动 对 象 客户 端 依据 发 送 给 服务 器 的 更 新 数据 与 服务 器 发 送 的 位 置 
信息 计算 预测 未 来 某 时 刻 的 位 置 。 客 户 端 将 预测 的 位 置 值 与 从 GPS 定位 器 获得 的 实际 位 
置 相 比较 , 当 两 者 的 偏差 值 大 于 预先 设 定 阔 值 时 ,客户 端 向 服务 器 发 出 更 新 请 求 ,否则 ,没有 
移动 对 象 更 新 发 生 。 移 动 对 象 位 置 数据 更 新 体系 如 图 8-2 所 示 。 
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8-2 移动 对 象 位 置 数据 更 新 体系 


4. MOD 应 用 领域 

当前 MOD 主要 有 下 述 应 用 领域 。 

(1) 智能 交通 系统 (交通 调度 与 管理 ) 。 交 通 管理 系统 可 以 基于 MOD 管理 车 辆 位 置信 
息 , 如 做 出 交通 堵塞 标识 以 控制 交通 、 预 测 在 未 来 10 分 钟 内 通过 火车 站 的 车 辆 数目 ,出 租 汽 
车 公司 可 以 根据 5 分 钟 后 车 辆 可 能 的 位 置 进行 车 辆 调度 等 。 类 似 状况 还 可 应 用 在 出 租车 / 
警 员 自动 派 址 系统 智能 社会 保障 系统 及 高 智能 的 物流 配送 系统 等 。 同 时 ,还 可 应 答 用 户 各 
种 位 置 查询 请 求 ,提供 交通 导航 服务 ,如 用 户 在 驾车 行驶 过 程 中 查询 距 其 最 近 的 加 油 站 和 查 
询 到 达 目 的 地 的 最 优 路 径 等 服务 请 求 。 

(2) 位 置 相 关 服 务 ( 基 于 位 置 的 广告 )。 移 动 运营 商 位 置 服 务 平台 可 根据 移动 用 户 的 当 
前 位 置 发 送 附 近 商 业 企业 的 广告 。 例 如 , 当 顾 客 经 过 某 商 场 范围 时 ,其 移动 电话 中 将 接收 到 
该 商场 的 促销 广告 .商品 目录 和 提供 电子 优惠 券 等 。 

(3) 集成 旅行 服务 。 旅 行 社 首先 通过 位 置 服务 平台 确定 用 户 所 在 的 位 置 ,其 次 再 根据 
数据 库 或 互联 网 提供 的 信息 选 出 用 户 所 在 地 的 相关 信息 ,提供 一 整套 可 定制 的 ,个 性 化 的 旅 
行 集成 信息 ,如 酒店 预订 信息 .周边 餐 馆 信息 、 交 通信 息 和 文化 活动 等 。 

(4) 紧急 救援 服务 。 电 信服 务 商 基于 移动 电话 网 络 或 GPS 定位 为 公众 提供 紧急 救援 
服务 ,如 美国 的 应 急 系统 E911 和 欧洲 的 E112 服务 等 。 又 如 ,在 发 生 交 通 或 野外 事故 时 ,用 
户 可 利用 移动 电话 呼叫 救援 ,相关 部 门 就 可 定位 救援 者 位 置 并 确定 最 佳 救援 方式 ,也 可 通过 
移动 电话 的 定位 功能 为 老人 和 小 孩提 供 跟 踪 服务 。 

(5) 数字 战场 。 在 战场 环境 中 ,作战 单元 往往 需要 知道 特定 区 域内 移动 目标 (坦克 、 直 
升 机 、 战 士 等 ) 位 置 数 据 或 需要 对 重要 移动 目标 位 置 进 行 跟踪 监视 。 战 场 环境 中 移动 目标 位 
置 数据 通过 无 线 通 信 网 络 传感器 网 络 或 卫星 侦察 定位 等 方式 向 位 置 服务 平台 提供 。 战 场 
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管理 系统 位 置 服务 平台 负责 管理 战场 环境 中 的 各 种 移动 目标 并 实时 回答 作战 单元 的 各 种 查 
询 服务 。 例 如 ,查询 在 某 地 区 内 有 多 少 友 军 坦克 ,查询 距离 某 战士 最 近 的 直升机 等 ,回答 常 
规 数据 库 无 法 回答 的 查询 ,如 * 请 告诉 距离 当前 位 置 最 近 友军 代号 及 方位 "等 。 


8.2 移动 对 象 数据 模型 


数据 库 系统 处 理 能 力 从 逻辑 上 来 讲 依 赖 于 相应 数据 模型 的 设计 与 构建 。 数 据 模型 是 数 
据 库 的 核心 元 语 , 它 从 本 质 上 规定 了 数据 对 象 的 类 型 .相互 关系 和 数据 操作 以 保持 数据 库 完 
整 性 的 规则 。 一 个 科学 严格 的 数据 模型 能 够 定义 和 控制 数据 库 中 将 会 执行 的 查询 模式 和 更 
新 操作 。 同 时 ,基于 时 间 演 进 动态 构造 的 移动 对 象 信息 也 需要 在 数据 模型 所 定义 的 数据 模 
式 中 体现 出 来 以 利于 在 MOD 系统 中 存储 、 提 取 和 分 析 。 


8.2.1 移动 对 象 数据 建 模 概 述 


MOD 产生 发 展 于 20 世纪 90 年 代 中 后 期 ,就 当前 情形 来 说 ,建立 一 个 成 熟 、 高 效 和 统一 
的 移动 对 象 数据 模型 还 具有 相当 的 挑战 性 。 在 过 去 二 十 多 年 间 , 人 们 根据 不 同 应 用 背景 提 
出 了 满足 不 同 实际 需求 的 移动 对 象 数据 模型 ,但 这 些 模型 也 各 有 自身 的 应 用 边界 。 

建立 移动 对 象 数据 模型 ,通常 是 先 在 原理 层面 研究 连续 抽象 数据 模型 ,再 在 数据 管理 层 
面 研究 便于 描述 ,存储 和 处 理 的 离散 有 限 数 据 模型 。 

1. 连续 模型 与 离散 模型 

连续 和 离散 是 探讨 与 时 间 相 关 的 计算 机 应 用 的 两 个 前 提 。 抽 象 的 连续 模型 是 进行 迎 辑 
分 析 的 基础 ,具体 的 离散 是 实现 计算 机 处 理 的 前 提 。 两 者 相辅相成 ,对 于 复杂 的 移动 对 象 数 
据 管理 也 是 如 此 。 

1) 连续 抽象 数据 模型 

连续 抽象 数据 模型 的 基本 特征 是 以 位 置 点 的 无 限 集合 为 初始 ,着 眼 于 对 移动 对 象 自 身 
特征 描述 表示 与 相互 关系 的 分 析 计 算 。 其 基本 点 可 以 描述 如 下 。 

(1) 将 X.Y 平面 上 移动 点 的 运动 描述 为 由 两 个 空间 维和 一 个 时 间 维 组 成 的 三 维 时 空 
中 的 一 条 连续 曲线 。 

(2) 将 X.Y、Z 空间 中 移动 区 域 运 动 状态 看 作 是 由 3 个 空间 维和 一 个 时 间 维 组 成 的 四 
维 时 空中 的 一 张 连续 运动 曲面 。 

连续 抽象 模型 实际 上 就 是 将 所 涉及 的 移动 对 象 运动 处 理 为 由 一 维 无 限时 间 域 到 二 维 或 
三 维 无 限 空间 域 的 连续 映射 。 例 如 ,对 于 来 袭 导弹 而 言 ,其 飞行 轨迹 无 论 能 否 建 立 一 个 有 限 
的 表达 描述 形式 ,在 抽象 层面 上 都 需要 处 理 为 一 条 连续 的 曲线 ,在 相应 时 间 区 间 内 任意 时 刻 
总 存在 一 个 相应 的 位 置 点 取 值 。 

连续 抽象 数据 模型 实际 上 可 以 看 作 是 常规 情形 下 的 概念 数据 模型 。 作 为 进行 逻辑 分 析 
与 计算 的 基础 ,连续 抽象 数据 模型 概念 上 简洁 明确 ,相关 语义 易于 描述 ,但 不 能 直接 通过 计 
算 机 系统 进行 数据 的 存储 和 操作 。 

2) 离散 有 限 数据 模型 
建立 抽象 数据 模型 之 后 ,就 需要 建立 相应 的 离散 有 限 数 据 模型 以 便 在 相应 计算 机 系统 
中 实现 ,离散 有 限 数据 模型 可 以 看 作 是 连续 抽象 模型 的 有 限 表示 。 类 似 于 SDB 中 使 用 多 边 





形 表示 区 域 和 使 用 折线 表示 河流 等 ,离散 有 限 数据 模型 的 基本 点 也 是 “图 形 近 似 ”。 

(1) 通过 曲线 的 直线 段 近 似 将 二 维 空 间 中 移动 点 的 运动 建 模 为 三 维 时 空中 的 一 个 折线 
段 集合 (折线 )。 

(2) 通过 曲面 的 平面 块 近似 将 三 维 空 间 中 移动 区 域 运动 建 模 为 四 维 时 空中 的 一 个 多 面 
体 集合 。 

相对 于 连续 抽象 数据 模型 ,离散 有 限 数据 模型 的 概念 更 为 复杂 多 样 , 语 义 分 析 处 理 也 更 
为 精细 深入 。 移 动 对 象 离散 有 限 数 据 模型 可 以 看 作 是 常规 数据 建 模 中 的 逻辑 数据 模型 。 通 
过 离散 模型 ,就 可 以 为 其 基础 建立 起 相应 的 计算 机 处 理 意义 下 的 数据 结构 和 数据 操作 。 
MOD 中 的 数据 建 模 通 常 都 是 指 离散 有 限 数据 模型 。 

如 前 所 述 , MOD 属于 时 空 数 据 库 范畴 ,但 其 显著 特征 是 ,只 关注 移动 对 象 的 位 置 数 据 
信息 ,因此 可 以 分 别 通 过 基于 时 空 数据 和 基于 位 置 服务 两 种 方式 实现 移动 对 象 的 钠 辑 建 模 。 
另外 ,移动 对 象 位 置 数据 与 时 间 演 进 密切 相关 。 从 对 时 间 演 进 的 感知 角度 考虑 ,可 分 为 过 
去 、 现 在 和 未 来 3 种 时 间 类 型 。 当 前 比较 受到 认可 的 逻辑 模型 多 是 针对 上 述 3 种 类 型 中 的 
一 种 或 两 种 ,同时 基于 3 种 类 型 的 模型 也 处 于 开放 过 程 中 。 

2. 基于 位 置 服务 建 模 和 时 空 数据 建 模 

移动 对 象 在 空间 的 位 置 随 时 间 的 演进 而 变化 ,描述 和 表示 移动 对 象 数据 频繁 更 新 的 特 
点 是 移动 对 象 数据 建 模 的 基本 出 发 点 。 如 前 所 述 , 离 散 数据 模型 中 的 移动 点 对 象 运动 状态 
建 模 为 线段 集合 即 折线 ,这 在 MOD 中 通常 称 为 轨迹 。 离 散 数据 模型 在 计算 机 中 的 应 用 实 
现 方式 研究 主要 是 围绕 轨迹 的 频繁 更 新 基本 点 展开 ,因此 MOD 中 的 数据 建 模 在 某 种 意义 
下 可 以 说 实际 上 就 是 对 移动 对 象 轨迹 的 建 模 。 在 MOD 轨迹 建 模 领 域 中 存在 着 两 个 并 行 的 
发 展 方向 , 即 基于 时 空 数据 管理 的 数据 建 模 与 基于 位 置 服务 的 数据 建 模 。 

1) 基于 时 空 数据 管理 的 数据 建 模 

基于 时 空 数 据 管理 的 数据 建 模 的 基本 代表 是 以 德国 哈 根 大 学 R. H. Guting 为 代表 的 欧 
洲 项 目 研 究 组 Chorochronos 成 员 开 发 的 时 空 数据 库 模 型 ,该 模型 目标 是 管理 随时 间 变 化 的 
几何 形体 。 早 期 只 针对 离散 变化 情形 ,其 后 逐渐 地 处 理 连 续 变 化 的 移动 点 ` 线 和 区 域 。 此 模 
型 具有 相关 的 查询 语言 用 于 处 理 历史 信息 ,同时 给 出 了 数据 类 型 与 相关 运算 符 定义 ,建立 了 
支持 移动 点 ` 线 和 区 域 的 处 理 算 法 。 该 模型 特点 是 相应 的 数据 类 型 与 算法 可 艇 入 到 现 有 的 
常规 数据 库 模型 中 ,能 够 有 效 支 持 过 去 数据 查询 ,但 对 未 来 查询 支持 不 足 。 另 外 ,还 有 以 法 
国 国家 科研 中 心 Inria 的 研究 员 S. Grumbach 为 代表 提出 的 时 空 数据 库 模型 的 约束 表示 模 
式 ,该 模型 主要 集中 在 移动 点 的 处 理 上 ,原型 系统 为 Dedale。 

2) 基于 位 置 服务 的 数据 建 模 

基于 位 置 服务 的 数据 建 模 的 基本 代表 是 以 美国 Ilinois 大 学 芝加哥 分 校 的 Wolf Sono 
等 开发 的 一 个 用 来 存储 随时 间 变 化 的 位 置信 息 模型 MOST (Moving Objects Spatial- 
Temporal) 。MOST 模型 着 眼 于 对 当前 和 未 来 位 置信 息 的 预测 处 理 , 较 好 地 体现 了 MOD 
不 同 于 常规 数据 库 的 基本 特性 。 由 于 未 来 位 置 数据 信息 并 未 产生 ,因此 MOST 主要 是 进行 
预测 , 它 并 不 直接 存储 需要 频繁 更 新 的 位 置 数据 而 是 存储 运动 矢量 。 当 移动 对 象 运动 矢量 
(如 速度 ) 达 到 预定 的 阔 值 时 才 会 更 新 数据 库 所 存储 的 位 置 数据 。 MOST 提出 动态 属性 概 
念 和 瞬时 .连续 及 持续 查询 的 思想 ,同时 给 出 了 相关 的 FTL(Future Temporal Logic) 查 询 


语言 。 
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8.2.2 MOST 模型 


随 着 GPS 技术 和 无 线 通信 技术 的 发 展 , 管 理 移动 对 象 动态 位 置 数据 成 为 可 能 。 人 快速 有 
效 地 获取 移动 对 象 当 前 位 置 数据 是 进行 复杂 位 置 管理 的 先决 条 件 。 移 动 对 象 位 置 数据 总 是 
发 生变 动 ,为 了 保证 位 置 数 据 随时 有 效 ,传统 方法 是 周期 性 刷新 数据 。 但 移动 对 象 位 置 数 据 
频繁 变动 会 给 服务 器 带 来 繁重 的 更 新 开销 ,同时 也 会 大 大 增加 网 络 负担 ,由 此 形成 了 研究 新 
的 处 理 方法 的 实际 驱动 。 当 前 MOD 主要 采用 基于 位 置 函数 的 建 模 方式 ,即将 移动 对 象 的 
位 置 抽象 成 时 间 的 函数 : Location= jz) ,系统 根据 该 函数 计算 出 移动 对 象 在 未 来 任 一 时 刻 
的 位 置 ,移动 对 象 无 须 周 期 性 地 报告 当前 位 置 ,只 在 实际 位 置 与 计算 位 置 的 偏差 达到 或 超过 
一 定 阀 值 时 才 对 数据 库 进 行 更 新 。 

基于 位 置 函 数 建 模 可 以 有 效 降 低 数据 库 更 新 开销 ,并 由 此 减轻 了 网 络 负担 。 这 方面 具 
有 代表 性 的 研究 成 果 就 是 移动 对 象 时 空 模型 MOST。 

MOST 基本 思想 是 引入 动态 属性 概念 ,将 移动 对 象 的 位 置 表 示 为 时 间 的 函数 。 移 动 对 
象 的 动态 属性 是 基于 位 置 的 属性 ,由 5 个 动态 子 属性 构成 : L. route、L. X. updatevalue、 
L. Y. updatevalue\L. updatevalue 、L. speed。 

MOST 模型 也 存在 着 一 定 的 局 限 性 。 由 于 所 采用 的 简单 函数 表达 能 力 有 限 , 动 态 属性 
只 能 表达 移动 对 象 在 未 来 较 短 时 间 内 的 移动 轨迹 ,而 对 较 长 时 间 移 动 对 象 轨迹 的 表示 就 力 
不 从 心 ,同时 ,MOST 不 支持 历史 位 置 数据 查询 。 

1. MOST 中 全 轨迹 

如 前 所 述 ,移动 对 象 轨迹 通常 都 使 用 一 系列 首尾 相连 的 线段 即 折线 来 表示 ,折线 中 每 个 
线段 的 位 置 通过 线性 插值 技术 获得 ,每 个 线段 还 使 用 一 个 冰 值 表示 轨迹 折线 上 位 置 与 移动 
对 象 实际 位 置 偏差 。 移 动 对 象 轨 迹 的 一 般 形 式 化 定义 如 下 。 

三 维 时 空 XXYXT 中 给 定 移动 对 象 的 轨迹 Tr 是 由 点 序列 (zi ,yh )， (xo,y2 ,bs),……， 
(or 和) (ti 过 ts 二 … 过 4) 构 成 的 一 条 折线 ,折线 中 每 一 段 都 为 直线 段 。 

轨迹 Tr 在 二 维 空间 XXY 平面 上 的 投影 定义 为 路 径 Rr, 如 图 8-3 所 示 。 





图 8-3 移动 对 象 的 轨迹 表示 


移动 对 象 位 置信 息 可 以 通过 轨迹 概念 将 其 表示 为 一 个 关于 时 间 的 ( 隐 式 ) 函数 ,其 语义 
为 当 移 动 对 象 在 时 刻 t; 位 置 坐标 为 (zx;, yi) 时 ,在 时 间 区 间 [ti,t 十 1] 上 由 点 (xi,yi) 到 点 
(zirsyit1) 且 以 速度 w 做 匀速 直线 运动 。 

速度 w 可 以 通过 下 述 公 式 计算 获得 : 








吝 (Zin — xi) yin — y) 
8 一 在 





在 时 间 区 间 [L2a ,za+ 可 (1 入 ;过 72) 内 ,移动 对 象 在 轨迹 Tr 上 两 点 (zi,y) 与 (zitlyyitl) 之 
间 的 位 置 通过 线性 插值 方法 获得 。 

在 MOST 中 同时 考虑 未 来 时 间 轨 迹 和 过 去 时 间 轨 迹 ,因此 需要 将 上 述 一 般 形式 的 轨迹 
扩展 为 下 述 的 包含 移动 对 象 未 来 与 过 去 轨迹 的 全 轨迹 。 

1) 基于 MOST 模型 的 未 来 轨迹 

设 三 维 时 空 XXYXT 了 ,移动 对 象 未 来 轨迹 Tr 是 一 个 由 下 述 元 素 组 成 的 七 元 组 : 

Tr = (Moid,Futnumber,Loco ,to , Direction ,vo ,Uncertainty) 

(1) Moid: 移动 对 象 标 识 符 。 

(2) Futnumber: 未 来 轨迹 段 标识 符 。 

(3) Loco : 更 新 初始 位 置 。 

(4) to: 更 新 初始 时 间 。 

(5) Direction: 轨迹 方向 。 

(6) w: 更 新 初始 速度 ,由 后 述 速度 预测 方法 求 出 。 

(7) Uncertainty: 更 新 闻 值 。 

为 得 到 移动 对 象 的 全 轨迹 需要 在 移动 对 象 位 置 发 生 更 新 的 时 刻 , 将 更 新 以 前 的 位 置信 
息 存 储 到 历史 数据 库 中 再 做 更 新 。 历 史 数据 库 是 存储 过 去 轨迹 的 集合 。 

2) 基于 MOST 模型 的 过 去 轨迹 

设 三 维 时 空 XXYX 工 ,移动 对 象 过 去 轨迹 Tr 是 一 条 由 下 述 六 元 组 构成 的 折线 : 

Tr = (Moid,Pasnumber, StartLoc, StartT, EndLoc, EndT) 

(1) Moid: 移动 对 象 标 识 符 。 

(2) Pasnumber: 过 去 轨迹 段 标识 符 。 

(3) StartLoc: 移动 对 象 开始 位 置 。 

(4) StartT: 移动 对 象 开始 时 刻 。 

(5) EndLoc: 移动 对 象 结束 位 置 。 

(6) EndT: 移动 对 象 结束 时 刻 。 

邻近 的 两 个 点 由 直线 段 相连 接 。 轨 迹 Tr 在 二 维 XXY 平面 上 的 投影 称 为 路 径 Rr。 两 
个 六 元 序列 之 间 任 何 时 刻 的 位 置 可 以 通过 线性 插值 得 到 。 

由 此 可 知 ,基于 MOST 模型 扩展 的 移动 对 象 全 轨迹 就 是 在 记录 当前 与 未 来 位 置信 息 
时 ,同时 存储 更 新 以 前 的 位 置 数据 ,由 此 不 仅 实现 了 移动 对 象 过 去 、 现 在 和 未 来 移动 对 象 全 
轨迹 建 模 ,而 且 在 一 定 程度 上 还 解决 了 轨迹 建 模 不 确定 性 的 问题 。 

2. 轨迹 预测 方案 

在 以 下 讨论 中 , 设 移 动 对 象 Mo 在 未 来 时 刻 工 的 预测 位 置 为 PredLoc, 实 际 位 置 为 
LacLoc, 更 新 时 刻 为 ,移动 对 象 的 位 置 为 Locs ,预测 初始 速度 为 vo ,在 离 上 次 更 新 的 时 间 
间隔 为 1 =t 十 to 时 ,移动 对 象 Mo 的 预测 位 置 为 : PredLoc 王 Loc 十 zt。 此 时 ,为 得 到 移动 
对 象 未 来 轨迹 上 的 预测 位 置 PredLoc ,关键 之 处 是 需要 对 初始 速度 w 的 预测 。 

移动 对 象 轨迹 预测 技术 通常 采用 两 种 速度 预测 模型 , 即 延 时 模型 与 滑动 平均 模型 。 

将 t+1 设 为 未 来 采样 时 刻 , 在 +1 时 刻 到 来 之 前 ,需要 对 速度 w 进行 预测 。 由 于 w 为 
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矢量 ,其 预测 包括 标量 值 和 方向 。 
(1) 延 时 模型 

式 中 ,2 为 未 来 时 刻 速度 ; vw,_1 为 最 后 一 个 历史 速度 。 
未 来 时 刻 速度 标量 值 和 方向 都 与 最 后 一 个 历史 速度 w-; 的 标量 值 和 方向 一 致 。 
(2) 滑动 平均 模型 


式 中 ,2 为 未 来 时 刻 速度 ; P 为 历史 速度 的 个 数 。 

未 来 时 刻 速度 数量 值 是 前 P 个 历史 速度 的 数量 的 平均 值 , 其 方向 与 最 后 一 个 历史 速度 
v1 的 方向 一 致 。 实 践 表 明 , 延 时 模型 对 移动 对 象 运 动 状态 改变 适应 更 快 ,而 滑动 平均 模型 
对 速度 标量 值 的 预测 比较 准确 。 

采用 上 述 两 种 基于 历史 速度 预测 未 来 速度 的 方法 , 虽 在 一 定 程度 上 对 速度 做 了 预测 ,但 
预测 精度 值 难以 满足 应 用 需求 。 为 了 对 未 来 速度 做 出 更 为 准确 的 预测 ,还 需要 建立 起 带 有 
滑动 因子 a 的 速度 预测 模型 。 

(3) 滑动 因子 预测 模型 。 此 模型 也 采用 历史 的 速度 去 预测 未 来 速度 ,基本 点 在 于 滑动 
因子 a 的 选择 ,滑动 因子 a 决定 了 速度 的 预测 。a 通过 以 下 公式 计算 : 


2 (Vi — Vz) (Ve — va) 
t=3 








2 >) Cv 一 zs) 
t=3 


> (mw 一 zi)Cur-l — vs) 
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‘=3 ‘=4 


式 中 ,t 为 当前 时 刻 ; v, 为 当前 时 刻 t 的 速度 ,vw_; (i 二 1,2,3) 为 当前 时 刻 1 之 前 的 第 i 个 时 
刻 速度 ; n 为 计算 滑动 因子 a 的 时 刻 总 数 。 设 采样 时 刻 移 动 对 象 各 个 历史 位 置 如 下 。 
,EY a ep er 
则 历史 速度 计算 可 由 前 述 定义 中 的 公式 得 出 : 
(Ti 一 Tri) 十 (ya 一 yc) 
At 
式 中 ,At 为 两 个 连续 采样 点 的 时 间 间 隔 且 0 入 ;< 上 委 2 n(0 志 n<t) 为 历史 记录 的 长 度 。 
设 N 二 (2 一 a)/a, 则 预测 未 来 时 刻 t 十 1 的 速度 速度 11 可 由 下 述 公 式 计算 : 
wi 一 aui 十 e(1 一 a)w 十 wa(1 一 a)2v 十 … 十 ea(1 一 ac)NvN 
如 果 要 预测 未 来 时 刻 i(i>t 十 1) 的 速度 ,首先 计算 v4s 二 avini 十 a(1 一 a) Vn, 其 次 用 v4 去 
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估算 忌 ;3 ,0.43 二 avi4z 十 a(1 一 a)Vi4s， 再 用 纠 ; 估算 忌 : 的 值 , 忆 :一 ao 十 (1 一 a) 玄 ae 
由 此 就 可 以 得 到 未 来 时 刻 i 的 速度 v, 。 

MOST 将 当前 速度 处 理 为 未 来 时 刻 预 测 的 速度 ,这 在 轨迹 预测 过 程 中 存在 着 相当 的 不 精 
确 性 。 为 提高 预测 质量 ,人 们 还 对 滑动 平均 模型 与 滑动 因子 速度 预测 模型 进行 了 多 种 改进 。 

3. 轨迹 更 新 策略 

为 解决 移动 对 象 全 轨迹 建 模 中 的 不 确定 性 与 不 精确 性 ,移动 对 象 轨迹 更 新 策略 需要 选 
择 合适 的 更 新 方式 ,在 降低 系统 资源 占用 率 的 同时 保证 查询 结果 具有 一 定 的 准确 性 。 为 此 ， 
在 MOST 建 模 基础 上 研究 者 们 提出 了 两 种 移动 对 象 轨迹 更 新 策略 。 

1) 速度 更 新 预测 策略 

在 行程 开始 时 ,移动 对 象 MO 发 送 给 MOD 管理 系统 一 个 不 确定 的 阅 值 ,并 将 其 存储 在 
Uncertainty 中 ,在 整个 行程 中 保持 不 变 。 一 旦 移动 对 象 MO 的 偏差 超过 Uncertainty 就 会 
引发 更 新 。 每 次 更 新 只 需要 包含 移动 对 象 当前 的 位 置 .速度 和 方向 。 由 于 此 时 赣 值 是 随机 
给 定 的 ,难以 保证 查询 结果 得 到 优化 。 

2) 自 适 应 预测 策略 

在 行程 开始 时 ,移动 对 象 MO 发 送 给 MOD 管理 系统 一 个 随意 选择 的 初始 化 阔 值 
TH,。 当 偏差 达到 TH, 时 ,移动 对 象 MO 就 发 送 更 新 给 数据 库 。 每 次 更 新 都 包含 有 移动 
对 象 的 当前 位 置 .速度 .方向 和 一 个 新 的 国 值 TH 。 数 据 库 把 这 个 新 闻 值 放 进 Uncertainty 
子 属性 中 。TH; 可 以 通过 下 述 方式 获得 。 

设 表示 从 行程 的 开始 到 移动 对 象 的 偏差 第 一 次 达到 TH 所 经 过 时 间 元 数 , 表示 


在 同样 时 间 间隔 里 的 偏差 代价 , 令 w 一 32 , 则 TH 一 其 中 ,C, 是 更 新 代价 ;Cs 是 


单位 不 确定 代价 。 当 偏差 到 达 TH; 时 也 会 发 送 一 个 类 似 的 更 新 ,所 不 同 的 是 TH; 取 为 


TH 一 证 启 ， 下 一 党 

式 中 ,is 是 从 第 一 次 更 新 到 第 二 次 更 新 之 间 的 偏差 代价 ; ts 表示 从 第 一 次 位 置 更 新 以 来 经 
过 的 时 间 单 元 数 。 

由 于 as 可 能 与 w 不 同 ,THs 也 可 能 与 TH; 不 同 。 当 移动 对 象 的 偏差 达到 TH 后 就 
应 当 发 送 另 一 个 包含 TH, 的 更 新 ,TH 的 计算 方法 与 前 面相 同 。 

由 此 可 见 , 自 适应 预测 策略 在 移动 对 象 的 每 次 更 新 时 都 会 提供 一 个 新 的 阔 值 。 这 是 一 
个 优化 阔 值 ,通过 基于 信息 代价 方法 得 到 ,从 而 使 得 直至 下 次 更 新 之 前 单位 时 间 内 的 总 信息 
代价 最 小 。 移 动 对 象 需要 估计 下 次 更 新 的 产生 时 刻 , 也 就 是 什么 时 候 偏 差 达到 阔 值 。 而 未 
来 的 偏差 在 进行 下 次 更 新 时 刻 估计 时 是 未 知 的 ,需要 自 适应 预测 策略 根据 过 去 的 偏差 来 预 
测 未 来 的 偏差 。 由 于 对 偏差 的 预测 是 不 相同 的 ,因此 阅 值 每 次 更 新 时 计算 得 出 的 值 也 是 不 
同 的 ,从 而 保证 了 预测 的 精确 度 。 


8.3 移动 对 象 数据 查询 


如 前 所 述 ,移动 对 象 数据 就 是 相应 移动 对 象 随时 间 演 进而 改变 所 处 位 置 的 数据 ,因此 时 
间 是 描述 和 查询 移动 对 象 数 据 的 入 口 和 标志 。 通 常 可 将 时 间 分 为 “过 去 ”现在 ”和 “未 来 ” 
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3 种 类 型 ,由 此 在 MOD 中 数据 查询 也 可 以 此 分 为 基于 “过 去 “现在 ”和 “未 来 "时 间 的 3 种 基 
本 类 型 。 从 时 间 的 计算 机 描述 考虑 ,主要 的 时 间 数 据 类 型 是 时 间 点 和 时 间 段 (时 间 区 间或 时 
间 期 间 )。 移 动 对 象 数据 查询 就 是 在 给 定时 间 后 ,查询 满足 相应 空间 关系 的 移动 对 象 。 移 动 
对 象 基 本 数据 类 型 是 空间 位 置 (坐标 ) 和 轨迹 ,移动 对 象 相互 间 的 空间 关系 主要 有 度量 关系 、 
序 关 系 和 拓扑 空间 关系 ,其 中 拓扑 空间 关系 是 空间 关系 讨论 中 的 重点 和 难点 。 将 上 述 移动 
对 象 的 时 间 和 空间 特性 描述 整合 起 来 ,就 使 得 移动 对 象 数据 呈现 出 复杂 多 样 的 查询 情形 。 


8.3.1 基于 时 间 点 查询 


基本 的 时 间 数 据 类 型 是 时 间 点 (时 刻 )。 基 于 时 间 点 的 查询 也 称 为 瞬时 查询 ,其 特征 是 
查询 在 某 一 特定 时 间 点 时 位 于 给 定 空间 范围 内 的 所 有 移动 对 象 。 在 移动 对 象 抽象 数据 模型 
中 , 当 给 定 的 二 维 空间 区 域 随时 间 变 化 时 就 构成 三 维 时 空中 的 一 个 曲面 体 ,给 定时 间 点 和， 
就 相当 于 给 出 了 该 曲面 体 的 一 个 剖 切 面 , 从 直观 上 来 看 ,就 相当 于 打开 了 曲面 体 的 一 个 窗 
口 , 因 此 基于 时 间 点 的 查询 更 多 时 候 也 称 为 “窗口 查询 。 

1. 时 间 点 查询 

设 to。 和 R。 分 别 是 给 定 的 时 间 点 和 空间 范围 ,下 面 给 出 时 间 点 查询 的 形式 化 定义 。 

二 元 组 Qw== (4 ,Ru) 表 示 一 个 基于 时 间 点 的 (窗口 ) 查 询 , 其 语义 为 查询 在 时 间 点 (时 
刻 )to 位 于 空间 窗口 R。 的 所 有 移动 对 象 ,其 中 ,to 可 以 是 过 去 、 现 在 或 未 来 的 时 刻 点 。 

根据 时 间 点 to 表示 过 去 、 现 在 和 未 来 的 不 同时 间 语 义 , 时 间 点 查询 有 下 述 3 种 情形 。 

(1) 过 去 时 间 点 窗口 查询 : 查询 历史 数据 ,对 于 存储 在 数据 库 中 的 所 有 数据 都 可 以 通 
过 遍历 或 索引 实现 相应 查询 过 程 。 

(2) 现在 时 间 点 窗口 查询 : 通过 无 线 定位 系统 直接 判定 移动 对 象 是 否 位 于 给 定 窗口 
之 内 。 

(3) 未 来 时 间 点 窗口 查询 : 需要 根据 已 有 的 位 置 函数 计算 移动 对 象 在 未 来 某 个 时 间 点 
是 否 位 于 给 定 的 窗口 之 内 ,这 是 一 个 对 未 来 位 置 进行 预测 的 过 程 ,体现 了 移动 对 象 数据 管理 
过 程 不 确定 性 的 基本 特征 。 

2. 时 间 点 查询 类 型 

按照 空间 数据 类 型 和 空间 关系 而 言 ,基于 时 间 点 的 移动 对 象 查询 有 不 同 的 查询 类 型 。 

1) 基于 坐标 查询 

基于 坐标 查询 时 ,空间 查询 结果 是 相应 移动 对 象 的 位 置 坐标 或 是 满足 给 定位 置 坐标 要 
求 的 移动 对 象 。 

(1) 点 查询 : 如 查询 特定 飞机 、 船 舶 或 汽车 在 给 定 to。 时 刻 的 位 置 。 

(2) 距离 查询 : 如 查询 距离 特定 移动 对 象 在 当前 位 置 10km 之 内 的 加 油 站 。 

(3) 最 近邻 查询 : 如 查询 距离 特定 移动 对 象 当前 位 置 最 近 的 高 速 公路 服务 区 。 

最 近邻 查询 是 MOD 中 最 具 特 色 的 典型 查询 之 一 ,其 一 般 形 式 为 & 最 近邻 查询 (KNN) 
即 查询 & 个 距离 给 定 移 动 对 象 最 近 的 空间 对 象 , 而 上 述 可 以 看 作 是 &=1 的 特殊 情形 。 

2) 基于 轨迹 查询 

查询 结果 是 与 给 定 轨迹 线 具有 相应 关系 的 移动 对 象 。 

(1) 拓扑 查询 : 如 查询 在 2017 年 3 月 29 日 凌晨 5 时 经 过 (Cross) 中 山 五 路 的 出 租 汽车 。 

(2) 导航 查询 : 如 查询 C3051 次 航班 飞行 在 2017 年 9 月 21 日 13 时 的 飞行 速度 。 这 








里 ,飞机 速度 和 方向 等 动态 信息 并 不 显 式 地 存储 在 数据 库 中 ,但 可 由 相应 轨迹 线 推导 得 出 。 
8.3.2 基于 时 间 段 查询 


基于 时 间 段 的 查询 就 是 对 于 给 定 的 时 间 段 ,查询 位 于 给 定 空间 范围 内 的 所 有 移动 对 象 。 
按照 给 定 空间 范围 R。 是 否 在 时 间 段 [ma ,ts ] 内 发 生 改 变 可 分 为 下 述 不 同 的 情形 。 

1. 移动 对 象 范围 查询 

基于 时 间 点 窗口 查询 可 推广 为 基于 时 间 段 的 窗口 查询 。 例 如 ,查询 在 2017 年 5 月 8 日 
上 午 8 时 至 10 时 通过 广州 市 科 韵 路 收费 站 的 所 有 移动 对 象 (汽车 )。 

设 [4 ,ts] 和 Ro 分 别 为 给 定 的 时 间 段 和 空间 范围 ,下面 给 出 范围 查询 的 形式 化 定义 。 

二 元 组 Qw 一 ([4,ts],R。) 定 义 了 一 个 移动 对 象 范围 查询 ,其 语义 为 在 [4 ,ts] 内 通过 窗 
口 R。 的 所 有 移动 对 象 ,而 [4 ,ts] 可 以 是 表示 过 去 或 未 来 的 时 间 。 

移动 对 象 范围 查询 可 看 作 是 时 刻 点 不 断 变化 的 基于 时 间 点 的 窗口 查询 ,其 特征 是 时 间 
点 上 在 给 定时 间 段 [na ,ts] 内 变化 ,而 空间 窗口 Ro 不 变 。 

由 于 时 间 段 用 于 表示 过 去 时 间 和 未 来 时 间 ,移动 对 象 范围 查询 可 以 有 下 述 两 种 实现 
太吉 

(1) 过 去 时 间 段 范围 查询 。 使 用 数据 库 中 存储 的 历史 数据 信息 ,查询 每 个 移动 对 象 当 
时 间 点 上 在 过 去 时 间 段 [La ,ts] 内 变化 时 的 移动 轨迹 ,所 有 轨迹 线 与 查询 窗口 R。 相交 部 分 上 
的 移动 对 象 集合 就 是 查询 结果 。 

(2) 未 来 时 间 段 范围 查询 。 使 用 已 有 移动 函数 计算 出 每 个 移动 对 象 在 未 来 时 间 段 [4 ,1, ] 
变动 时 的 移动 轨迹 ,所 有 轨迹 线 与 查询 窗口 R。 相交 部 分 上 的 移动 对 象 集合 就 是 查询 结果 。 

2. 移动 对 象 连续 查询 

在 实际 应 用 中 ,移动 对 象 范 围 查询 中 的 空间 窗口 也 随时 间 点 1 在 [4 ,ts] 内 的 变化 而 发 
生 改 变 。 例 如 ,在 数字 战场 中 需要 查询 在 发 射 后 10 一 40s 内 距离 导弹 5km 范围 内 的 敌 方 反 
导 雷 达 站 ; 在 当前 时 间 30min 之 内 距离 一 辆 运行 车 辆 在 其 3km 范围 内 的 加 油 站 等 ,这 些 都 
可 以 看 作 是 引入 移动 对 象 连续 查询 的 应 用 实例 背景 。 

设 [4 ,tj 和 Ri,R 分 别 是 给 定 的 时 间 段 和 空间 范围 ,下面 给 出 连续 查询 的 形式 化 定义 。 

二 元 组 Qew 二 (Lt,ts],[LRi,R,]) 定 义 了 一 个 移动 对 象 连续 查询 ,其 语义 为 时 间 点 1 在 
[a ,tj 内 变动 时 ,通过 窗口 R 在 [Ri,R;] 变 动 时 所 经 历 的 窗口 的 所 有 移动 对 象 ,其 中 ,时 间 
段 通常 是 基于 查询 工作 点 之 后 的 未 来 一 段 时 间 。 

移动 对 象 连续 查询 实际 上 描述 了 一 种 对 于 实际 查询 范围 的 不 确定 性 预测 ,因此 属于 未 
来 时 间 查 询 范畴 。 

移动 对 象 连续 查询 的 基本 特点 是 ,查询 窗口 R 随 着 时 间 点 上 的 变化 而 改变 ,实际 上 相当 
于 基于 时 间 点 窗口 查询 结果 的 一 个 “连续 ”变动 序列 ,查询 结果 当然 就 是 这 个 序列 中 所 有 结 
果 的 总 和 。 基 于 这 样 的 考虑 ,在 移动 对 象 连续 查询 的 具体 实现 过 程 通常 是 将 其 离散 化 为 多 
个 由 固定 的 更 小 时 间 段 (将 其 “看 作 ” 时 间 点 ) 上 的 时 间 点 查询 。 


8.3.3 最 近 急 查询 


实际 应 用 中 有 两 类 重要 的 查询 类 型 。 其 一 ,如 一 个 在 街道 上 的 确定 行人 ,需要 查询 距离 
自己 最 近 的 出 租车 ; 其 二 ,如 一 辆 在 街道 上 的 确定 出 租车 ,需要 查询 对 于 哪些 行人 来 说 自己 
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是 距离 他 们 最 近 的 出 租车 。 前 者 称 为 “最 近邻 查询 ,而 后 者 则 就 是 “ 逆 最 近邻 查询 ”。 

设 gq 是 一 个 给 定 的 参考 点 ,S 是 被 查询 对 象 集合 ,D(g.p) 表 示 g 与 p 的 距离 函数 ,下 面 
给 出 最 近邻 查询 的 形式 化 定义 。 

基于 g 最 近邻 查询 结果 是 在 给 定时 间 点 或 时 间 段 内 S 中 的 如 下 子 集 Qnn(g): 

Qnn(g)={s|s€ESA(YVpES, D(g,s) < D(g,p))} 

由 此 可 知 ,最 近邻 查询 基本 特征 就 是 给 定 一 个 参照 点 ,查询 在 某 一 时 刻 或 时 间 期 间 内 存 
在 哪些 对 象 与 该 参照 点 距离 最 近 。 

如 前 所 述 ,最 邻近 查询 中 通常 的 类 型 是 K 邻近 查询 (KNN), 即 查找 最 靠近 查询 点 的 
个 对 象 。 而 上 述 的 逆 最 近邻 查询 (RNN) 从 逻辑 上 可 以 看 作 最 近邻 查询 的 “ 逆 ” 描 述 , 其 主要 
查询 的 最 近邻 是 参照 点 (查询 点 ) 的 移动 对 象 ,对 于 查询 结果 中 的 每 一 个 点 , 距 它 最 近 的 点 就 
是 查询 点 。 

显然 ,最 近邻 查询 的 技术 实现 与 查询 对 象 集合 S 和 距离 函数 D 有 关 。 在 实际 查询 过 程 
中 通常 以 R-tree 树 索 引 为 基础 ,采用 的 空间 对 象 集合 是 MBR 集合 ,采用 的 距离 函数 是 欧 几 
里 得 距离 函数 。 

最 近邻 查询 在 逻辑 上 可 以 看 作 是 属于 时 间 点 查询 范畴 ,但 由 于 其 理论 原理 和 技术 实现 
的 特定 性 ,在 移动 对 象 数据 查询 过 程 中 通常 单独 作为 一 种 查询 类 型 进行 探讨 。 


8.4 移动 对 象 数据 索引 


MOD 管理 着 众多 的 移动 对 象 ,而 每 个 移动 对 象 又 对 应 着 众多 的 移动 位 置 或 移动 轨迹 ， 
同时 由 于 还 管理 着 历史 数据 ,因此 MOD 中 通常 存储 着 数量 庞大 的 移动 对 象 数据 信息 。 在 
查询 处 理 时 如 果 只 依靠 遍历 扫描 ,必然 会 影响 和 减低 系统 性 能 。 提 高 数据 库 查 询 性 能 的 基 
本 途径 就 是 对 其 管理 的 数据 建立 相应 的 数据 索引 。 从 发 展 应 用 实践 来 看 ,移动 对 象 数据 索 
引 技 术 一 直 都 是 MOD 技术 研究 与 开发 的 重要 领域 之 一 。 迄 今 为 止 ,人 们 从 基本 的 空间 索 
引 和 时 态 索 引出 发 ,提出 了 众多 的 移动 对 象 数据 索引 方法 。 主 要 情形 如 图 8-4 所 示 。 

移动 对 象 数据 索引 技术 可 按照 不 同 角度 进行 分 类 。 

(1) 按照 查询 过 程 中 的 时 间 数 据 类 型 : 分 为 基于 时 间 点 和 基于 时 间 段 的 数据 索引 。 

(2) 按照 用 户 对 查询 的 时 间 整 体 界定 : 分 为 基于 过 去 .当前 和 未 来 时 间 的 数据 索引 。 

(3) 按照 移动 对 象 涉及 空间 的 移动 限制 : 分 为 基于 位 置 查询 和 基于 轨迹 线 查 询 的 数据 
索引 。 

如 前 所 述 ,MOD 最 突出 的 特征 是 “频繁 更 新 性 ”, 因 此 ,无 论 从 什么 角度 和 按照 什么 
关系 构建 移动 对 象 数据 索引 都 需要 尽 可 能 地 体现 出 这 种 特性 ,避免 由 于 “少量 ”数据 的 频 
繁 更 新 导致 整个 数据 索引 结构 的 经 常 性 变动 , 即 所 构建 索引 结构 应 当 具 有 “ 增 量 式 ” 更 新 
的 品 

移动 对 象 数 据 是 一 种 特殊 的 时 空 数据 ,时 空 数据 主体 是 其 中 的 空间 数据 信息 。 空 间 数 
据 查 询 有 成 熟 的 R-tree 索引 技术 ,特别 是 R-tree 在 更 新 过 程 中 保持 “平衡 "的 增 量 式 更 新 方 
法 更 具有 独到 的 研究 与 应 用 价值 。 基 于 这 样 的 考量 , 现 有 移动 对 象 索 引 方 法 大 多 都 是 借鉴 
于 空间 数据 索引 特别 是 R-tree 技术 发 展 而 来 的 。 作 为 一 种 经 典 的 空间 索引 技术 ,R-tree 自 
1984 年 由 Guttman 提出 后 ,经 过 数 十 年 发 展 ,不 断 产 生 和 拓展 的 各 类 变 体 已 经 形成 了 一 个 
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8-4 移动 对 象 索引 技术 


枝 繁 叶 茂 的 R-tree 家 族 。 多 维 空间 索引 R-tree 如 同一 维 线性 索引 B-tree 树 一 样 , 从 其 覆盖 
的 广度 和 深度 来 看 都 是 其 他 任何 索引 技术 难以 比肩 的 。 

用 户 查 询 需 要 使 用 数据 索引 ,而 移动 对 象 历史 数据 与 当前 及 未 来 数据 的 存储 管理 与 检 
索 通 常 具 有 较 大 差异 。 用 户 提供 的 查询 时 间 首 先 需 要 厘清 是 属于 “过 去 ”当前 ”或 “未 来 "中 
的 哪 种 情形 ,因此 将 移动 对 象 数 据 索 引 按 照 * 过 去 ”当前 ”或 “未 来 ”进行 划分 就 成 为 基本 的 
分 类 考虑 。 现 有 索引 结构 通常 只 支持 其 中 一 种 或 两 种 类 型 查询 ,研究 在 一 个 索引 结构 上 同 
时 支持 过 去 、 当 前 和 未 来 的 查询 仍然 是 本 领域 中 的 开放 课题 之 一 。 


8.4.1 当前 和 未 来 时 间 索 引 


查询 当前 数据 及 对 未 来 数据 进行 适当 预测 是 MOD 中 数据 查询 的 重要 特色 。 这 类 查询 
索引 可 采用 基于 参数 化 空间 的 方法 进行 构建 .主要 思想 是 使 用 时 间 MBR 函数 描述 相应 的 
移动 对 象 在 时 空中 的 变化 ,将 具有 时 空 特征 的 移动 对 象 归 人 到 同一 限定 矩形 中 。 目 前 已 提 
出 多 种 属于 该 类 型 的 移动 对 象 数据 索引 ,这 里 简要 介绍 其 中 的 TPR-tree。 

作为 基于 R" -tree 的 索引 技术 ,TPR-tree 具有 下 述 特点 。 

(1) 能 够 有 效 索 引 在 d( 三 3) 维 空间 中 移动 点 对 象 的 当前 位 置 。 

(2) 能 够 通过 考虑 时 空 对 象 的 速度 与 方向 预测 时 空 对 象 在 较 近 未 来 的 大 致 位 置 。 

(3) 通过 考虑 在 索引 树 结构 中 可 计算 的 位 置 以 减少 时 间 函 数 的 频繁 更 新 。 

(4) 通过 更 新 算法 自动 调整 以 适应 于 一 个 动态 变化 数据 集 。 





移动 对 刘 数 据 府 





地 co 四 


高 级 数据 府 基 础 才 程 





1. TPR-tree 基本 思想 

TPR-tree (Time-Parameterized R-tree) 的 基本 点 是 在 R* -tree 基础 上 引入 时 间 参 数 
TMBR (Time-Parameterized MBR) 的 基本 概念 。 

设 移 动 对 象 在 时 刻 t 的 位 置 函 数 x;(1) 二 zw 十 vi(t 一 tw) ,其 中 zx;(i 二 1,2) 分 别 表示 
二 维 欧式 空间 中 点 P 的 横 坐 标 和 纵 坐 标 ,vw 为 移动 对 象 在 zx; 方向 上 的 移动 速度 。 通 过 位 
置 函数 对 移动 对 象 位 置 进行 建 模 ,可 以 实现 通过 计算 完成 对 当前 位 置 查询 和 对 未 来 位 置 预 
测 ,减少 索引 结构 的 频繁 更 新 。 同 时 ,参考 位 置 (z;wt) 和 速度 向 量 (v;) 不 仅 可 用 于 记录 和 描 
述 对 象 的 运动 轨迹 ,还 可 以 时 间 函 数 的 形式 在 索引 中 表示 MBR 的 各 个 坐标 数值 。 

下 面 通过 实例 说 明 TPMBR 概念 和 TPR-tree 的 构建 。 

(1) 设 有 如 图 8-5Ca) 所 示 的 7 个 移动 对 象 ,图 中 箭头 表示 移动 方向 ,为 了 简单 ,每 个 篆 
头 后 的 数字 既 表 示 该 移动 对 象 的 编号 也 表示 其 移动 速度 。 

(2) 按照 常规 MBR 构建 技术 得 到 给 定 7 个 移动 对 象 的 3 个 MBR 如 图 8-5(b) 所 示 。 
这 里 ,每 个 移动 对 象 实际 上 都 带 有 各 自 的 移动 方向 和 移动 速率 。 此 时 设 时 间 点 1 二 t。 时 状 
态 为 初始 状态 。 

(3) 假设 在 时 间 点 :一 和 时 ,按照 原 定位 置 移动 函数 ,相应 移动 对 象 移动 到 了 如 图 8-5(c) 
所 示 的 位 置 ,原先 MBR 也 变化 为 图 8-5Cc) 中 所 示 相 应 情形 。 

(4) 按照 R* -tree 的 思想 ,此 时 选取 如 图 8-5(d) 所 示 的 MBR 更 为 合适 。 
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图 8-5 TPMBR 基本 结构 
上 述 分 析 实 际 上 就 是 将 常规 MBR 所 包含 移动 对 象 中 最 大 的 v; 分 配给 MBR 对 应 的 
“上 边 ” 和 “右边 ”, 最 小 的 v; 配置 到 MBR 对 应 的 下边” 和 “左边 ”, 此 时 每 个 MBR 的 4 条 边 
就 分 别 对 应 一 个 速度 参数 ,而 这 4 个 参数 又 可 以 组 成 一 个 边 分别 平 行 坐标 轴 的 “矩形 ”, 这 


样 , 每 个 MBR 都 配置 了 一 个 速度 参数 矩形 VBR。 从 底层 上 考虑 ,每 个 移动 对 象 对 应 一 个 
MBR( 移 动 点 对 象 的 MBR 退缩 为 一 个 点 ) ,因此 可 以 认为 ,在 TPR-tree 中 每 个 移动 对 象 实 
际 上 都 是 其 形状 MBR 和 速度 VBR 的 二 元 组 。 由 此 可 得 到 TPR-tree 中 的 移动 对 象 如 下 的 
形式 化 建 模 。 

移动 对 象 建 模 : 移动 对 象 建 模 为 二 元 组 0==(O,,0,) 二 (MBR.,VBR) ,其 中 

(1) O,: O 的 最 小 限定 矩形 , 即 常规 MBR 。 

(2) Ov=VBR=(Q ,Qs+; QQ,+);: Q,- 、.Q, + 分别 表示 MBR 的 “左边 "和 “ 右 
边 ” 移 动 速度 ,Q,,- 、Q,,+ 分 别 表 示 MBR 的 “下 边 " 和 上边” 移动 速度 ,“ 十 ”和 “一 ”分 别 表示 
速度 方向 与 坐标 轴 相 同 或 相反 。 

在 如 图 8-6 所 示 情 况 下 ,4 个 移动 对 象 a、b、c、d 对 应 VBR 分 别 如 下 : 

a: VBR=(1,1; 1,1) b: VBR=(—2,—2; 一 2, 一 2) 

c: VBR=(—2,0; 0,2) d: VBR=(—1,—1; 1,1) 

而 两 个 目录 MBR 对 应 的 VBR 分 别 为 : 

Ni: VBR=(—2,1; —2,1) N;: VBR=(—2,0; 一 1,2) 
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图 8-6 MBR 和 对 应 的 VBR 


在 构建 TPR-tree 时 ,可 以 建立 一 个 “保守 边界 矩形 框 ?覆盖 一 个 移动 对 象 集合 。 保 守 矩 
形 框 的 下 界 根据 所 覆盖 对 象 的 最 小 速度 设置 ,而 上 界 根据 所 覆盖 对 象 的 最 大 速度 设置 。 因 
此 ,保守 边界 框 不 会 收缩 ,保证 所 覆盖 的 移动 对 象 。 为 了 避免 边界 矩形 框 变 得 很 大 ,无 论 在 
什么 时 候 更 新 对 象 位 置 ,都 需要 重新 计算 所 在 路 径 上 的 所 有 边界 框 。 

2. 查询 类 型 

移动 对 象 的 二 维 空间 MBR 表示 为 R 一 ([aiaa ,aimsx],[azmin ,azmax]), 其 中 ainn ,aimsx 是 
R 在 第 i 维 投影 的 最 小 值 和 最 大 值 .aiws 二 aiwox (i 二 1,2)。 设 R、Ri、R: 分 别 为 二 维 空间 中 的 
MBR, t\tmin、vtmax 为 不 小 于 当前 时 刻 的 时 间 点 。 根 据 给 定 空间 范围 ，TPR-tree 支持 下 述 
3 种 查询 类 型 。 

(1) 时 间 片 查询 : Q 二 (R, zi) ,查询 时 刻 上 时 位 于 尺 内 的 所 有 移动 对 象 。 

(2) 窗口 查询 : Q 一 CR， tun， tusx) ,查询 时 刻 段 [tu，tns] 内 位 于 尺 内 的 所 有 移动 对 象 。 

(3) 移动 查询 : Q 二 (Ri ,Ra ,twin, twox) ,查询 运动 轨迹 包含 在 连接 twis 时 刻 的 Ri 与 tu 时 
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刻 的 R, 的 不 规则 四 边 形 内 的 所 有 移动 对 象 。 
一 维 空间 zx 中 TPR-tree 三 类 查询 示例 如 图 8-7 所 示 。 
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8-7 TPR-tree 三 类 查询 类 型 


建立 一 个 性 能 良好 的 TPR-tree 需要 考虑 3 个 重要 参数 。 

(1) 查询 窗口 W: 查询 中 设 定 的 时 间 范 围 应 该 是 能 够 较 准 确 预 见 未 来 移动 情况 。 若 
iss(Q) 表 示 查 询 Q 的 提出 时 刻 , 则 对 时 间 片 查询 ,满足 iss(Q) 志 tiss(Q) 十 W, 而 对 窗口 查 
询 和 移动 查询 , 则 有 iss(Q) 志 twn 志 twox 二 iss(Q) 十 W。 

(2) 索引 使 用 时 间 U: 索引 建立 之 后 能 够 有 效 使 用 的 时 间 。 

(3) 索引 数据 有 效 时 限 五 : 索引 使 用 时 间 与 查询 窗口 之 和 。TPR-tree 须 支持 从 开 
始 在 时 间 范 围 五 内 的 各 类 查询 。 

上 述 3 个 基本 参数 如 图 8-8 所 示 。 








8-8 TPR-tree 3 个 基本 参数 


3. 数据 查询 

TPR-tree 中 3 种 查询 类 型 实现 算法 可 以 分 别 讨论 如 下 。 

1) 时 间 片 查询 

首先 计算 在 查询 时 刻 各 结 点 的 MBR ,其 次 按照 R* -tree 查询 算法 进行 查询 。 即 在 二 维 空 
间 中 , MBR 为 (Xun ，Xus)),VBR 为 (Visin ,Vax ) 数 据 结 点 满足 时 间 片 查询 Q= (Com yan) ,人 ) 
的 充 要 条 件 为 (awis 人 Xm 十 Vax Gt 一 4)) A (amox Xn Von (t—ti))。 

2) 窗口 查询 

TPR-tree 中 预测 窗口 查询 和 R* -tree 类 似 , 不 同 之 处 在 于 各 结 点 MBR 需 在 查询 时 刻 
动态 计算 。 更 新 算法 也 与 R* -tree 相似 ,差异 在 于 各 度量 值 不 同 的 计算 方式 。 

(1) 设 索引 建立 时 间 为 Te ,索引 数据 的 有 效 时间 为 了 ,A(N,z) 和 PCN, 四 分 别 为 实体 
NN 在 时 刻 t 时 的 面积 和 周 长 , 则 实体 N 的 面积 和 周 长 计 算 公 式 如 下 。 


TetH 
实体 NN 面积 =| A(N,Ddt 
Tc 


TtH 
实体 N 周 长 = | P(N,Ddt 
Tc 


(2) 设 OVR(Ni,N;,t) 和 Cdist(Ni,N;,t) 分 别 为 实体 N 和 Ns 在 时 刻 1 的 重生 区 域 
和 质心 的 距离 , 则 实体 N, 和 N, 在 重合 区 域 和 质心 之 间距 离 计算 公式 如 下 。 


Toe+H 
Ni 和 N; 重 秋 区域 = i 罗 OVRCN ,Na ,0)dt 
c 


TetH 
N1 和 N; 质心 间距 离 一 | ® CdistCN ,Na ,0)dt 
Tc 


3) 移动 查询 

首先 检测 查询 范围 是 否 与 该 范围 内 MBR 的 移动 范围 相交 。 

设 二 维 空间 实体 N= (MBR, VBR)==((Xiwins Ximox? Xanin，Xaax)，(VininyVinasi Vasiny 
Vamx) ) ,移动 查询 Q 二 (([avwin ,aimax] ， Lazmin ,azmax] [romin » Voimax ] » Lvovzmin » tamax ]) ,tmin » imax ) 

判断 N 和 Q 相交 与 否 基本 思想 是 , 若 两 个 多 维 移动 矩形 相交 , 则 一 定 存在 一 个 时 间 段 ， 
在 此 期 间 它 们 的 范围 在 每 一 维 空间 上 的 投影 都 相交 。 两 个 移动 矩形 在 第 i(i 二 1,2) 维 相交 
的 时 间 段 设 为 Laman ,timoxj] 门 Lmin ,tmax]。 如 果 在 两 个 维 空间 上 相交 的 时 间 段 没有 同时 交集 ， 
即 Nt 二 多 , 则 说 明 这 两 个 矩形 不 会 相交 ,查询 结果 为 空 ; 否则 返回 相交 的 时 间 段 。 

4. 其 他 相关 索引 

TPR-tree 是 一 种 具有 代表 性 的 移动 对 象 数据 索引 方法 ,随后 的 研究 者 们 也 针对 其 中 存 
在 的 不 足 提出 了 各 种 改进 方案 和 新 的 索引 方法 。 

(1) STAR-tree: 通过 引入 自 调整 概念 来 提高 TPR-tree 的 索引 性 能 , 它 可 有 效 处 理 基 
于 时 空 对 象 现在 或 未 来 位 置 的 各 种 不 同 查 询 , 如 区 域 查 询 、 时 间 片 查询 和 最 近邻 居 查 询 等 ,并 
且 还 提供 了 在 存储 与 查询 性 能 之 间 和 更 新 索引 时 间 与 响应 查询 时 间 之 间 较 好 的 折 中 平衡 。 

(2) REXP-tree: 通过 假设 移动 点 对 象 的 位 置 在 一 个 固定 时 间 周期 后 将 失效 来 索引 移 
动 点 对 象 的 现在 与 预测 的 未 来 轨迹 。 它 修改 了 TPR-tree 的 插入 与 删除 算法 ,并 且 使 用 “ 懒 
惰 ” 更 新 技术 来 避免 时 空 对 象 的 运动 信息 长 时 间 不 能 被 更 新 而 可 能 带 来 的 问题 。 

(3) PR-tree: 基本 与 TPR-tree 类 似 ,但 它 考 虑 用 参数 化 矩形 来 表示 时 空 对 象 的 空间 区 
域 。 每 个 参数 化 矩形 都 有 一 个 时 间 间 隔 来 表示 时 空 对象 运 动 的 开始 时 间 和 结束 时 间 , 因 此 ， 
一 个 时 空 对 象 在 空间 上 用 一 个 多 边 形 来 表示 而 不 是 连续 的 运动 轨迹 。 

(4) NSI: 使 用 一 个 沿 着 空间 维 的 界限 盒 来 表示 本 地 空间 的 时 空 对 象 运动 ,并 用 一 个 多 
维 的 数据 结构 (如 R-tree) 来 索引 该 界限 盒 。 但 是 界限 盒 的 表示 也 会 带 来 一 定 的 误差 。NSI 
索引 发 生 在 初始 空间 中 的 运动 ,并 且 保 护 对 象 的 局 部 性 ,但 它 对 该 索引 树 中 的 非 叶子 结 点 层 
的 无 效 空 间 (Dead Space) 进 行 了 索引 ,从 而 减低 了 索引 效率 。 

(5) VCI: 引入 Vs 概念 用 来 存储 在 该 索引 结构 中 每 个 结 点 所 包含 的 所 有 对 象 中 的 最 
大 允许 速度 。VCI 利用 Vs 延缓 反映 对 象 运动 的 更 新 索引 代价 和 当 对 象 移动 时 必须 重新 评 
估 所 有 查询 要 求 。VCI 优点 是 对 于 少量 数目 的 查询 具有 和 良好 的 性 能 ,而 对 于 大 量 数目 的 并 
发 查询 性 能 却 比 较 差 。 

(6) MP-tree: 使 用 投影 操作 支持 诸如 时 间 片 查询 与 区 域 查询 等 的 查询 操作 。 优 点 是 ， 
能 有 效 处 理 分 裂 与 查询 操作 ,并 具有 高 效 的 空间 利用 率 。 另 外 通过 链表 的 使 用 ,MP-tree 还 
可 有 效 处 理 基 于 轨迹 的 查询 。 缺 点 是 , 当 结 点 被 输入 时 需 花费 更 多 的 时 间 来 进行 投影 操作 
的 存储 。 
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8.4.2 过 去 时 间 索 引 


按照 前 述 基 于 过 去 时 间 的 轨迹 建 模 ,移动 对 象 的 轨迹 可 以 表示 为 一 条 折线 。 在 建立 基 
于 R-tree 索引 时 , 叶 结 点 包含 轨迹 线 上 各 个 线段 的 MBR。 而 非 叶 结 点 即 目录 MBR 的 构造 
需要 遵循 “空间 邻近 性 ”原则 ,由 此 直接 构造 的 R 树 会 出 现 属于 同一 轨迹 线 的 线段 MBR 可 
能 位 于 相距 较 远 的 不 同 叶 结 点 中 ,这 会 对 “轨迹 线 查 询 ” 的 效率 产生 不 利 影响 。 为 此 ,需要 在 
R-tree 框架 内 ,尽量 做 到 同一 轨迹 线 上 的 线段 MBR 具有 存储 上 的 “相近 性 ”。 索 引 的 插入 
算法 实际 上 也 是 构成 索引 的 构造 算法 ,而 插入 新 的 轨迹 线 最 终归 结 为 插入 “线段 MBR”, 由 
此 需要 通过 改进 R-tree 的 插入 算法 及 由 此 带 来 的 分 裂 策 略 来 构建 适合 于 移动 对 象 查询 特 
性 的 新 的 索引 结构 。 下 面 分 别 讨论 两 种 比较 典型 的 基于 过 去 时 间 数 据 索引 STR-tree 和 
TB-tree, 它 们 的 初始 建构 都 与 R-tree 类 似 ,而 关键 之 处 在 于 两 者 的 插入 算法 都 体现 了 叶 结 
点 中 数据 MBR 的 “同一 轨迹 线 的 相关 性 ”。 

1. STR-tree 

STR-tree(Spatio-Temporal R-tree) 是 基于 移动 对 象 特性 的 时 空 R-tree。 相 对 于 R-tree 
建立 在 最 小 扩展 策略 基础 之 上 的 插入 算法 ,STR-tree 构建 索引 时 除 考虑 常规 的 空间 邻近 性 
之 外 ,还 同时 考虑 保持 轨迹 线 的 部 分 完整 性 ,尽量 将 属于 同一 个 轨迹 的 线段 保存 在 一 起 。 

STR-tree 基本 思想 是 ,在 插入 新 的 线段 MBR 时 ,需要 设计 一 个 名 为 FindNode 的 查找 
算法 ,选择 需 插入 线段 所 属 轨 迹 线 的 上 一 个 (前 驱 ) 线 段 所 在 的 叶 结 点 。 当 其 前 驱 线 段 所 在 
叶 结 点 存在 插入 空间 时 ,新 线段 就 被 插入 ,否则 进行 结 点 分 裂 操 作 。 

1) 新 线段 插入 

STR-tree 插入 算法 引入 一 个 保存 参数 p(Preservation Parameter) 来 表示 保持 轨迹 完整 
性 的 层 数 。 当 返回 的 叶子 结 点 为 满 时 ,检查 p 一 1 层 父 结 点 是 否 为 满 。 在 图 8-9 中 ,p 二 2, 所 
以 只 需要 检查 非 叶子 结 点 1 层 中 的 相应 结 点 。 

(1) 如 果 存 在 一 个 祖先 结 点 具有 插入 空间 , 则 对 应 叶 结 点 就 被 分 裂 。 

(2) 如 果 所 有 的 p 一 1 中 的 祖先 结 点 都 无 插入 空间 ,算法 使 用 R-tree 中 的 选择 子 树 算法 
在 当前 路 径 的 右 分 支 子 树 中 查找 满足 条 件 的 能 够 包含 待 插入 线段 的 叶 结 点 。 

图 8-9 中 阴影 框 表示 包含 所 插入 线段 前 驱 线段 的 叶 结 点 ,而 灰色 框 表示 当前 插 和 路径 
右 子 树 上 所 有 的 结 点 。 
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图 8-9 STR-tree 插入 新 线段 












































2) 诛 有 结 点 分 裂 

发 生 结 点 分 裂 时 需要 分 别 考虑 叶 结 点 和 非 叶 结 点 两 种 情形 。 

(1) 叶 结 点 分 裂 。STR-tree 需要 保持 轨迹 线 的 完整 性 ,因此 ,分 裂 叶 结 点 需要 分 析 结 点 
中 包含 哪 种 类 型 的 线段 。 叶 结 点 中 任意 两 个 线段 可 能 属于 或 不 属于 同一 条 轨迹 。 当 它们 属 
于 同一 条 轨迹 时 ,可 以 有 相同 的 端点 也 可 以 没有 ,但 如 果 属 于 不 同 的 轨迹 则 一 定 没有 相同 端 
点 。 因 此 叶 结 点 中 可 能 包含 下 面 集中 不 同类 型 的 线段 。 

g@ 不 连续 线段 (disconnected segments) : 与 叶 结 点 中 其 他 线段 均 不 连接 。 

@ 向 前 连接 线段 (forward connected segments) : 轨迹 线 中 第 一 个 线段 。 

@ 向 后 连接 线段 (backward connected segments): 轨迹 线 中 最 后 一 个 线段 。 

@ 双向 连接 线段 (bi-connected segments) : 两 个 端点 分 别 与 同一 轨迹 线 中 的 另外 两 条 
线段 端点 相连 的 线段 。 

STR-tree 叶 结 点 分 裂 的 基本 思想 是 将 最 新 也 是 最 近 的 线段 放置 到 新 结 点 中 。 这 使 得 
新 的 线段 比 包 含 在 原 有 结 点 的 线段 更 有 可 能 插入 到 新 结 点 中 。 这 种 可 能 性 可 放宽 对 最 小 结 
点 容量 m 的 限制 。 

上 述 几 种 线段 类 型 分 割 策略 如 图 8-10 所 示 , 其 中 实 线段 表示 新 插入 线段 ,虚线 段 表示 
叶 结 点 中 原 有 线段 。 

Q@ 若 所 有 线段 都 不 相连 ,由 QuadraticSplit 算法 决定 分 裂 , 如 图 8-10(a) 所 示 。 

@ 若 至 少 有 一 条 线段 为 非 连接 ,将 非 连接 线段 放置 到 新 创建 结 点 中 ,如 图 8-10(b) 
所 示 。 

@ 车 没有 不 连接 线段 ,最 近 向 后 连接 的 线段 被 放置 到 新 创建 的 结 点 中 ,如 图 8-10(c) 
所 示 。 





8-10 分割 策略 


(2) 非 叶 结 点 分 型 。STR-tree 的 非 叶 结 点 较为 简单 ,只 需 为 新 记录 项 创建 一 个 新 结 点 
即 可 。 使 用 这 种 插入 和 分 割 策略 ,使 索引 结构 在 保存 轨迹 的 同时 还 考虑 到 了 时 间 维 情形 。 

2. TB-tree 

STR-tree 索引 对 于 窗口 查询 比较 有 效 , 但 对 于 整体 轨迹 线 查 询 却 不 够 灵活 。 因 为 其 线 
段 MBR 是 否 属于 同一 轨迹 的 信息 在 数据 存储 层面 上 是 “ 隐 含 "的 。 为 将 这 种 信息 “ 显 式 ” 
化 ,需要 引入 TB-tree(Time Br-tree) 索 引 结构 。 

1) TB-tree 基本 思想 

与 R-tree 构建 相同 ,TB-tree 按照 空间 邻近 性 原则 通过 各 个 不 同 的 目录 MBR 而 将 同一 
个 轨迹 分 成 了 很 多 轨迹 片段 ,而 倒数 第 二 层 目录 MBR 包含 的 每 一 个 MBR 中 的 线段 MBR 
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就 构成 了 一 个 叶 结 点 。 这 样 ,一 条 轨迹 的 各 个 片段 就 可 能 会 被 存放 在 不 同 叶 结 点 中 。 为 了 
在 数据 存储 层面 显 式 表示 同一 条 轨迹 线 上 的 线段 MBR .借鉴 B+ -tree 做 法 ,TB-tree 就 在 叶 
结 点 层 将 同一 条 轨迹 线 的 线段 MBR 通过 双向 链表 链接 起 来 。 由 此 ,TB-tree 保持 了 R-tree 
结构 中 线段 对 象 的 轨迹 线 特性 ,更 适合 于 处 理 基于 轨迹 线 的 复杂 查询 类 型 。 但 其 不 足 是 空 
间 中 临近 的 不 同 轨 迹 线 片段 被 存储 在 不 同 的 结 点 中 。 

在 插入 更 新 过 程 中 ,TB-tree 自 左 向 右 逐 步 增长 。 最 左边 的 叶 结 点 是 最 早 插入 的 结 点 ， 
最 右 的 叶 结 点 最 后 插入 。TB-tree 的 每 一 叶 结 点 包括 部 分 轨迹 , 即 轨 迹 分 布 在 不 相连 接 的 
叶 结 点 中 ,因此 在 查询 处 理 时 需要 设立 基于 轨迹 标识 符 检索 段 。 具 体 做 法 是 ,通过 有 层次 的 
数据 结构 连接 叶子 结 点 。 使 用 双 链 表 按照 时 间 顺 序 把 包含 相同 轨迹 部 分 的 叶 结 点 连接 起 
来 ,这 样 达到 保留 轨迹 的 目的 。 

TB-tree 结构 基本 思想 如 图 8-11 所 示 ,其 中 图 8-11(a) 表 示 一 条 轨迹 ,图 8-11(b) 表 示 在 
TB-tree 索引 结构 中 的 对 应 部 分 ,属于 同一 条 轨迹 的 首尾 端点 相连 的 线段 C1.C3、C5、C7 和 
C8 等 在 叶 结 点 中 通过 适当 指针 方式 (如 双向 链表 ) 相 互 链接 。 
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(b) 
图 8-11 TB-tree 结构 基本 思想 











2) TB-tree 插入 更 新 

TB-tree 将 各 个 移动 对 象 的 轨迹 线 切 成 许多 片段 ,每 一 段 包括 M 条 线段 ,M 也 称 为 扇 
出 ,表示 每 一 叶 结 点 包括 M 条 轨迹 片段 。 插 入 过 程 如 图 8-12 所 示 ,整个 过 程 的 重要 阶段 是 
图 中 的 标号 一 @。 在 插入 算法 中 , 当 插 入 新 数据 时 , 须 查 找 新 数据 所 属 轨 迹 所 在 的 叶 

遍历 TB-tree 时 ,从 根 结 点 开始 ,依次 进入 与 新 轨迹 片段 MBB 相交 的 每 一 叶 结 点 ,并 选 
择 包 括 与 新 片段 相连 接线 段 的 叶 结 点 (图 8-12 阶段 中)。 其 中 的 FideNode 算法 具有 与 
STR-tree 相同 的 搜索 过 程 。 如 果 叶 结 点 已 满 , 需 执 行 分 裂 算 法 。 叶 结 点 的 分 裂 将 影响 完全 
保留 轨迹 的 原则 。 因 此 ,可 以 创建 一 个 新 的 叶 结 点 。 在 图 8-12 中 ,向 上 逐渐 寻找 未 满 的 非 
叶 结 点 (从 阶段 @ 一 四 ) 。 选 择 最 右边 路 径 (阶段 @) 来 插入 新 的 结 点 。 父 结 点 中 (阶段 加 ) 如 
果 有 空间 , 则 插入 新 的 叶 结 点 。 如 果 父 结 点 已 满 ,通过 在 非 叶 结 点 层 1 上 创建 一 个 新 结 点 来 
分 裂 父 结 点 ,新 创建 结 点 有 一 个 新 的 叶 结 点 作为 唯一 子孙 ,必要 时 向 上 传播 分 裂 。TB-tree 
的 增长 从 左 到 右 , 即 插入 时 首先 是 最 左边 的 ,最 后 是 最 右边 的 。 
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图 8-12 TB-tree 的 插入 过 程 








| 

1 

| 

1 

| 
-ye 





























8.5 路 网 移动 对 象 数据 索引 


MOD 中 移动 对 象 按照 所 在 运动 空间 状态 可 分 为 下 述 3 种 情形 。 

(1) 非 受 限 运动 。 例 如 ,战争 状态 下 飞机 在 天 空中 的 飞行 .一定 范围 内 军舰 船舶 在 海洋 
上 的 航行 及 巡航 导弹 的 飞行 等 ,其 特征 是 移动 对 象 的 运动 路 线 没有 限制 ,可 在 各 个 方向 上 自 
由 运动 。 

(2) 受 限 运动 。 例 如 ,船舶 在 海洋 上 的 航行 会 受到 礁石 和 冰山 等 的 限制 ,人 在 荒野 中 行 
走 受 到 悬崖 峭壁 及 河流 沟 塞 的 限制 等 ,其 特征 是 移动 对 象 的 运动 受到 固定 物体 的 阻碍 ,但 在 
这 些 阻碍 物 之 外 运动 不 受 限制 。 如 图 8-13(a) 所 示 的 在 城市 街区 情形 。 

(3) 路 网 运动 。 例 如 ,汽车 在 高 速 公路 网 络 中 运动 、 火 车 在 轨道 网 络 中 运行 、 飞 机 和 
船舶 在 确定 航线 中 运动 和 弹道 导弹 的 飞行 等 ,其 特征 是 移动 对 象 的 运动 轨迹 需要 预先 设 
定 ,一 旦 设 定 后 ,对 象 的 运动 过 程 就 不 能 再 在 给 定 道路 或 航线 网 络 之 外 进行 ,如 图 8-13 
(b) 所 示 。 











(a) 受 限 运动 (b) 路 网 运动 
8-13” 受 限 运 动 和 路 网 运动 





第 (1) 种 是 MOD 研究 的 一 般 情形 ,MOD 领域 中 前 期 的 大 部 分 工作 都 可 以 用 来 处 理 此 
类 问题 。 

第 (2) 种 可 以 通过 适当 步 又 转换 为 无 限制 的 情形 ,如 通过 某 种 划分 将 所 给 出 的 查询 窗口 分 
解 为 多 个 更 小 部 分 ,而 每 个 小 查询 窗口 成 为 无 限制 情形 ,从 而 使 用 各 类 已 有 的 技术 与 方法 。 

第 (3) 种 中 的 路 网 (Road Network) 在 研究 中 实际 上 是 一 种 较为 新 颖 的 情形 , 它 可 以 通 
过 适当 方式 将 一 般 MOD 中 的 “两 个 ”处 理 维度 上 的 移动 转换 为 “ 较 低 ”处 理 维度 上 的 移动 ， 
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即将 需要 同时 考察 “轨迹 线 ” 变 化 和 “移动 对 象 ”变化 的 情形 转换 为 只 需 考虑 “移动 对 象 " 变 化 
的 情形 。 现 实 中 大 多 数 移动 对 象 的 运动 网 络 空间 都 可 近似 看 作成 路 网 模型 。 此 时 ,确定 
移动 对 象 位 置 无 须 使 用 精确 二 维 空间 坐标 ,只 需要 记录 路 网 中 线性 参考 坐标 即 可 ,正如 
相关 文献 中 所 讲 , 路 网 模型 中 移动 对 象 位 置信 息 实 现 了 从 二 维 空间 数据 降 到 ”1. 5 维 空 
间 ” 数 据 。 实 际 上 ,在 交通 运行 工具 与 技术 不 断 发 展 进步 的 当今 世界 ,移动 对 象 的 路 网 运 
动 可 以 看 作 是 一 种 更 为 普遍 的 形式 ,应 用 中 的 大 部 分 移动 对 象 课题 都 可 基于 给 定 路 网 展 
开 。 近 年 来 ,基于 路 网 的 移动 对 象 数据 管理 已 经 成 为 MOD 技术 研发 的 具有 价值 和 应 用 
前 景 的 热点 课题 。 


8.5.1 路 网 模型 


现实 生活 中 路 网 结构 可 能 相当 复杂 ,计算 机 难以 直接 描述 和 处 理 其 相应 状态 ,一 般 
都 是 借助 数学 模型 来 近似 表示 实际 路 网 。 一 个 地 区 的 国道 与 省 道路 网 及 其 相应 数学 模 
型 如 图 8-14 所 示 。 
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8-14 城市 区 域 道路 的 路 网 模型 


从 数据 管理 角度 考虑 , 现 有 路 网 模型 主要 分 为 静态 路 网 模型 和 动态 路 网 模型 两 大 类 。 
由 于 动态 路 网 模型 涉及 当前 道路 的 众多 不 定 因素 给 研究 带 来 了 一 定 难度 ,目前 关于 此 类 模 
型 仍 处 于 建 模 研 究 阶段 ,而 静态 路 网 模型 相对 简单 且 容 易 实 现 。 

现实 生活 中 ,路 网 中 各 种 道路 与 路 段 长 短 不 一 、 形 状 各 异 ,道路 在 城乡 之 间 的 分 布 也 不 
均衡 。 通 常 城市 交通 流量 大 .道路 网 络 密集 ,而 乡村 移动 对 象 相对 较 少 .道路 网 络 稀疏 。 此 
外 ,道路 之 间 还 存在 相互 穿插 等 复杂 情形 。 但 路 网 在 结构 上 相对 稳定 ,改动 概率 较 低 ,更 新 
周期 较 长 ,可 以 认为 其 在 整体 上 会 长 时 间 保 持 静 态 。 因 此 .目前 路 网 移动 对 象 数据 管理 技术 
大 多 都 是 基于 静态 路 网 模型 提出 的 。 根 据 道路 抽象 方法 不 同 , 静 态 路 网 模型 又 可 以 分 为 面 
向 路 段 (Segment) 路 网 模型 和 面向 路 径 (Road) 路 网 模型 。 

1. 面向 路 段 路 网 模型 

路 网 从 图 论 观点 可 以 看 作 是 一 个 无 向 连通 图 的 图 形 结构 。 面 向 路 段 的 路 网 模型 是 从 图 
论 观点 出 发 ,将 路 网 建 模 成 为 “交点 ( 结 点 )" 集 合 与 “路 段 ? 集 合 组 成 的 二 元 组 。 

定义 面向 路 段 的 路 网 建 模 相应 的 路 网 模型 G 王 CN,E)。 其 中 ,N 表示 这 些 “ 交 点 ” 
(Node) 全 体 的 集合 ,这 里 的 “交点 ”包括 路 网 中 各 个 线路 的 起 始点 终点 和 交叉 点 ; 已 表示 路 
段 全 体 的 集合 ,而 路 段 (Edge) 是 线路 中 两 相 邻 交点 之 间 的 部 分 。 

面向 路 段 的 路 网 模型 示例 如 图 8-15 所 示 .其 中 表示 交点 ,e 表示 路 段 。 

关于 基于 路 段 的 路 网 模型 需要 注意 下 述 问 题 。 

(1) 模型 中 交点 xzE N 的 位 置 表示 为 二 维 点 坐标 已, 一 (z,y) ,路 段 e 连接 给 定 线路 上 两 








图 8-15 面向 路 段 的 路 网 模型 示例 


个 相 邻 交点 。 

(2) 移动 对 象 在 路 段 。 上 轨迹 表示 为 折线 T, 二 (Pi,…, Pi),k 表示 移动 对 象 更 新 的 
次 数 。 

(3) 参数 posE[0,1] 表 示 移 动 对 象 在 此 路 段 中 的 位 置 , 当 pos 一 0 表示 移动 对 象 位 于 路 
段 起 始点 ,pos=1 表示 位 于 路 段 终 点 ; 而 posE(0,1) 表 示 正 在 该 路 段 运行 。 

(4) 在 上 述 约定 之 下 ,移动 对 象 在 路 段 e 中 的 位 置 可 表示 为 D(G) 二 EXpos, 而 移动 对 
象 的 轨迹 函数 表示 为 f: T 一 D(G), 其 中 ,TT 是 相关 时 间 域 。 

(5) 面向 路 段 的 索引 模型 简单 明确 ,但 它 分 割 了 道路 的 自然 特征 ,对 移动 对 象 的 全 路 段 
索引 性 能 不 高 ,并 且 按 照 一 般 直觉 习惯 ,并 不 认为 两 个 路 段 有 交点 就 是 一 条 路 ,而 更 为 认可 
路 口 是 两 条 或 多 条 道路 的 交叉 点 。 

2. 面向 路 径路 网 模型 

面向 路 径 的 路 网 模型 为 二 元 组 : 

G=(R,J) 
其 中 ,R 表示 路 网 中 所 有 路 径 (Road) 的 集合 ; J 表示 尺 中 各 个 路 径 的 交点 (Junctions) 集 合 。 
面向 路 径 的 路 网 模型 实际 上 是 将 路 网 看 作 是 路 径 及 它们 之 间 交 点 的 集合 。 

面向 路 径 的 路 网 模型 示例 如 图 8-16 所 示 ,其 中 , 方 结 点 表示 路 径 端 点 , 圆 结 点 表示 路 径 
相交 点 。 





8-16 面向 路 径 的 路 网 模型 示例 


关于 面向 路 径 的 路 网 模型 需要 说 明 下 述 各 点 。 

(1) 在 模型 中 ,rER 表示 为 由 多 个 直线 段 相 互 连 接 的 折线 并 记 为 1, 一 (pi1,…,p), 其 
中 P; 二 (zi,yi) (1 三 ik) ,为 路 径 的 度量 。 

(2) 引入 参数 pos: 当 pos 一 0 表示 移动 对 象 位 于 路 径 起 始点 ,pos 二 1 表示 位 于 路 径 终 
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点 ,而 posE(0,1) 表 示 正 在 该 路 径 运 行 。 

(3) 移动 对 象 在 路 径 e 中 的 位 置 可 表示 为 D(G) 二 EX pos, 而 移动 对 象 的 轨迹 线 函 数 可 
以 表示 为 f: T 一 D(G) ,其 中 ,TT 是 相关 时 间 域 。 

(4) 面向 路 径 模型 比 面向 路 段 模型 减少 数据 的 存储 量 , 但 是 不 利于 管理 运动 在 道路 上 
的 移动 对 象 ,影响 移动 对 象 数据 的 更 新 效率 。 

索引 是 时 空 数据 库 的 基本 查询 技术 ,建立 在 面向 路 段 和 面向 路 径路 网 模型 上 的 路 网 移 
动 对 象 数 据 管理 也 不 例外 。 大 多 数 静 态 路 网 模型 的 索引 结构 都 是 借鉴 R-tree 或 R* -tree， 
下 面 简要 介绍 两 种 具有 代表 性 的 路 网 索引 技术 , 即 FNR-tree 和 MON-tree。 


8.5.2 面向 路 段 移动 对 象 索引 下 NR-tree 


FNR-tree(Fixed Network R-tree) 是 Frentzo S 等 人 于 2003 年 提出 的 一 种 管理 路 网 移 
动 对象 的 经 典 索引 技术 ,也 是 目前 移动 对 象 研究 和 应 用 领域 中 使 用 和 借鉴 较 多 的 索引 技术 ， 
不 少 移动 对 象 索引 都 是 通过 对 FNR-tree 结构 和 算法 进行 改进 或 增添 辅助 结构 以 提升 某 方 
面 索引 性 能 的 ，FNR-Tree 索引 结构 在 处 理 路 网 移动 对 象 索引 方面 具有 代表 意义 。 

1. FNR-tree 架构 

FNR-tree 采用 基于 路 段 路 网 模型 ,具有 索引 路 段 的 二 维 R-tree(2DR-tree) 和 索引 路 段 
移动 对 象 一 维 R-tree(1DR-tree) 森 林 的 上 下 两 层 索 引 架 构 。 

1) 上 层 2DR-tree 

上 层 2DR-tree 索引 给 定 路 网 中 的 各 个 路 段 ,并 按照 如 下 定义 其 结 点 。 

(1) 非 叶 结 点 项 。 数 据 结构 为 二 元 组 Nocle 一 (ptr，MBR ) 。 

Q@ ptr: 指向 子 结 点 的 指针 。 

@ MBR: 包围 其 所 有 子 结 点 路 段 的 二 维 最 小 限定 矩形 。 

(2) 叶 结 点 项 。 数 据 结构 为 二 元 组 Leaf 一 (LinelD，MBR，Orientation) 。 

Q@ LinelD: 路 网 中 的 路 段 标识 符 。 

@ MBR: 包含 路 段 的 最 小 限定 矩形 。 

@ OrientationE {0,1): 路 段 在 MBR 中 的 位 置 标志 。 

每 个 叶 结 点 都 包含 路 网 中 的 一 条 路 段 数据 。 

2) 下 层 1DR-tree 森林 

对 于 上 层 2DR-tree 中 的 每 个 叶 结 点 都 建立 一 棵 1DR-tree 用 以 运行 索引 在 叶 结 点 存储 
路 段 上 的 移动 对 象 数据 。 每 棵 1DR-tree 中 结 点 定义 如 下 。 

(1) 非 叶 结 点 项 数 。 据 结构 为 三 元 组 Node(Cptr,Tentrance，Texit) 。 

@ ptr: 指向 其 子 结 点 的 指针 。 

@ Tentrance: 其 子 结 点 中 所 有 移动 对 象 轨迹 记录 的 最 小 值 。 

@ Texit: 其 子 结 点 中 所 有 移动 对 象 轨迹 记录 的 最 大 值 。 

(2) 叶 结 点 项 数 。 据 结构 为 四 元 组 Leaf 王 (MovingObjectID，TentrancTe，TexitT， 
Direction) 。 

@ MovingObjectID: 移动 对 象 的 唯一 标识 符 。 

@ TentranceTe: 移动 对 象 进 入 此 路 段 的 时 间 。 

@ TexitT: 移动 对 象 离开 此 路 段 的 时 间 。 





@ DirectionE {0,1} : 表示 移动 对 象 运动 方向 , 值 为 0 时 表示 对 象 从 道路 左边 进入 , 否 
则 为 1 。 
FNR-tree 的 两 层 R-tree 索引 架构 如 图 8-17 所 示 。 


























































































































1 
1 
| 1 
1 
1 1 
| 1 
| 1 
1 
(ptrMBR) (ptrMBR) (ptrMBR) ! 
1 1 
| ! 
| 1 
1 
| Segment Segment Segment Segment Segment 1 
人 En 下 ee 
FE 和 YY 
1 
| root 下 层 1DR-tree 森 林 root ! 
| 1 
| 1 
Re | 
| (ptr,Tentrance, Texit) Be (ptr,Ts, Te) (ptr,Ts,Te) 人 (ptr,Ts, Te) | 
| 1 
| 
| MO MO MO MO MO 0 MO MO MO | 
! 1 
| 















































8-17 FNR-tree 的 两 层 R-tree 索引 架构 


2. FNR-tree 查询 

R-tree 是 一 种 高 度 平衡 树 且 是 一 种 支持 完全 动态 的 空间 索引 ,其 插入 删除 和 查询 都 可 
随时 进行 ,不 需要 周期 性 地 进行 索引 结构 重组 。FNR-tree 索引 以 R-Tree 为 基础 ,继承 了 
R-tree 的 一 些 优良 特性 ,利用 两 层 R- 树 结构 将 移动 对 象 信息 、 空 间 信 息 和 时 间 信 息 三 者 有 
机 结合 ,具有 较 高 空间 利用 率 且 在 窗口 查询 方面 有 较 好 的 性 能 。 

1) 窗口 查询 

基于 FNR-tree 的 查询 操作 通过 下 述 步 又 实现 。 

(1) 在 2DR-tree 中 搜索 与 空间 查询 窗口 相交 的 线段 ,记录 相应 叶 结 点 上 路 段 ID 和 R- 
tree 指针 。 

(2) 由 指针 进入 相应 1DR- 树 执行 R- 树 搜索 算法 并 记录 其 搜索 结果 所 对 应 的 ID。 

(3) 对 (2) 中 ID 与 (1) 中 ID 求 交 获得 最 终 查 询 结果 。 

由 于 R-tree 数据 操作 采用 “ 自 项 向 下 ”搜索 策略 ,因此 FNR-tree 每 次 查询 或 更 新 都 将 
执行 两 次 R-Tree 的 自 顶 向 下 搜索 。 例 如 ,查询 某 给 定 矩 形 区 域 一 段 时 间 内 移动 对 象 时 , 首 
先 要 查询 所 有 在 该 时 间 段 内 或 与 该 区 域 相 交 的 索引 项 ,算法 从 2DR-tree 根 结 点 开始 , 自 顶 
向 下 搜索 所 有 MBR 中 与 查询 区 域 有 关 的 数据 项 直到 叶 结 点 。 其 次 根据 2DR-tree 叶子 结 
点 所 对 应 的 1DR-tree, 对 1DR-tree 再 进行 一 次 自 顶 向 下 过 程 以 搜索 所 有 与 查询 时 间 段 相交 
的 1DR-tree 叶 结 点 ,最 后 返回 所 有 相交 叶 结 点 移动 对 象 信息 ,至 此 完成 查询 。 查 询 算法 可 
能 还 将 搜索 树 中 多 个 分 支 。 

FNR-tree 在 对 移动 对 象 精确 匹配 搜索 过 程 中 ,可 能 需要 从 顶部 同时 向 多 个 叶子 方向 遍 
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历 , 如 果 查 询 到 2DR-tree 中 满足 条 件 的 多 个 叶 结 点 ,可 能 还 要 搜索 所 有 与 其 对 应 的 1DR- 
tree, 直 到 找到 与 其 匹配 的 移动 对 象 数据 才能 终止 。 因 此 ,这 种 搜索 方式 会 导致 较 大 的 结 点 
LI/O 代价 和 CPU 消耗 ,FNR-tree 查询 性 能 就 会 受到 一 定 影响 。 

2) 路 径 查询 

路 径 查 询 可 表示 为 二 元 组 road_query 二 (road,ti ,ts), 其 语义 表示 在 [t,ts ] 时 间 段 内 ， 
行驶 在 路 径 road 上 的 所 有 移动 对 象 。 

由 于 FNR-tree 以 路 段 为 单位 进行 存储 ,并 未 记录 路 段 与 路 段 之 间 的 关联 信息 。 进 行 
路 径 查 询 时 ,首先 在 上 层 2DR-tree 中 通过 递归 算法 查找 所 有 与 查询 路 径 有 关 的 路 段 ; 找到 
路 段 后 ,再 对 满足 条 件 路 段 所 指向 的 下 层 1DR-tree 进行 搜索 ,通过 时 间 窗 口 查 找到 满足 查 
询 条 件 的 移动 对 象 数据 。 此 时 ,FNR-Tree 在 路 径 查询 中 存在 宛 余 重 复 搜索 ,索引 结构 查询 
效率 有 所 降低 。 

在 对 过 去 轨迹 查询 过 程 中 ,需要 遍历 整 棵 上 层 2DR-tree 和 下 层 1DR-tree 森林 ,导致 查 
询 性 能 随 索引 移动 对 象 数量 的 增加 ,算法 磁盘 I/O 次 数 成 指数 级 增长 。 这 说 明 ,尽管 在 理 
论 上 FNR-tree 可 以 支持 移动 对 象 历史 轨迹 查询 ,但 实际 应 用 中 却 不 易 实 现 这 样 的 查询 

3. FNR-Tree 更 新 

FNR-tree 以 路 径路 段 为 空间 粒度 构建 索引 ,其 中 2DR-tree 管理 路 网 中 路 段 信息 ,其 中 
每 个 叶 结 点 中 包含 一 个 指向 其 对 应 1DR-tree 的 指针 。 对 应 1DR-tree 用 于 记录 某 个 时 间 间 
隔 内 相应 路 段 上 的 移动 对 象 的 运动 信息 。 除 非 路 网 中 线路 发 生变 化 ,一 般 情 况 下 对 2DR- 
tree 极 少 进行 更 新 ,而 1DR-tree 则 会 根据 路 网 中 移动 对 象 的 运动 情况 进行 动态 更 新 。 
FNR-tree 以 路 段 为 基本 元 素 建立 索引 ,这 将 导致 当 路 段 信 息 较 为 复杂 时 2DR-tree 会 产生 
大 量 叶 结 点 , 且 当 移动 对 象 从 一 个 路 段 进入 到 另 一 个 路 段 时 需要 对 底层 1DR-tree 进行 大 量 
的 更 新 操作 。 

由 上 述 讨 论 可 知 FNR-tree 存在 如 下 一 些 不 足 之 处 。 

(1) 不 易 查询 历史 轨迹 : FNR-Tree 在 进行 历史 轨迹 和 路 径 查询 过 程 中 需要 搜索 整个 
上 层 2DR-tree 中 的 路 段 , 可 能 出 现 大 量 无 效 路 径 查询 ,系统 需 付出 较 高 查询 代价 。 

(2) 2DR-tree 过 多 叶 结 点 : 2DR-tree 每 个 叶 结 点 仅 包含 一 条 路 段 ,路 网 中 大 量 的 路 段 
就 会 产生 大 量 叶 结 点 ,这 些 叶 结 点 中 缺乏 移动 对 象 数目 信息 ,使 得 移动 对 象 流量 查询 实现 
困难 。 

(3) 产生 无 效 查询 路 径 : FNR-tree 沿用 R-tree 自 顶 向 下 搜索 策略 ,精确 查询 时 可 能 需 
从 顶部 同时 向 多 个 叶子 方向 遍历 ,造成 大 量 重复 和 无 效 的 查找 路 径 , 消 耗 系统 资源 。 

(4) 路 段 间 缺 乏 联系 : FNR-tree 采用 路 段 存储 模式 ,缺少 路 段 之 间 连 接 信息 ,在 进行 路 
径 查 询 时 需 遍 历 上 层 2DR-tree 以 搜索 查询 路 径 有 关 的 路 段 ,对 系统 性 能 影响 较 大 。 

(5) 实际 处 理 不 够 细致 : FNR-tree 将 移动 对 象 视 为 随机 在 路 网 中 运动 ,为 了 简单 将 移 
动 对 象 出 现在 路 网 每 个 位 置 的 概率 视 为 均等 的 。 在 现实 路 网 中 ,不 同 路 径 上 交通 繁忙 程度 
不 同 ,有 运动 的 和 静止 的 .速度 快 的 与 速度 慢 的 .相应 移动 对 象 的 更 新 与 查询 请 求 的 频率 也 
不 尽 相 同 。 由 于 1DR-tree 只 记录 移动 对 象 存在 于 路 径 的 时 间 段 ,难以 反映 移动 对 象 在 路 径 
中 间 停 止 运动 或 是 改变 方向 的 具体 信息 。 

正 是 出 于 解决 上 述 不 足 的 需要 ,人 们 对 FNR-tree 提出 了 各 类 改进 方案 ,MON-tree 就 





是 其 中 之 一 。 
8.5.3 MON-tree 


为 克服 FNR-tree 的 不 足 , Victor 等 在 2004 年 提出 MON-tree (Moving Objects in 
Networks Tree) 。 

1. MON-tree 架构 

与 FNR-tree 相似 ,MON-tree 也 是 一 个 两 层 混合 索引 结构 ,由 两 层 2DR-tree 和 沟通 两 
层 2DR-tree 相互 之 间 关 联 的 Hash 路 径 表 组 成 。 

1) 上 层 2DR-tree 

MON-tree 上 层 由 一 棵 2DR-tree 和 一 个 Hash 表 组 成 ,其 中 ,2DR-tree 针对 路 网 拓扑 结 
构建 立 索 引 ,Hash 表 用 以 建立 上 下 层 之 间 关 联 。 

(1) 2DR-Tree 非 叶 结 点 项 。 数 据 结构 为 二 元 组 (MBR ,childPtr) 。 

Q@ MBR: 包含 所 有 子 结 点 的 最 小 限定 矩形 。 

@ childPtr: 指向 叶 结 点 的 指针 。 

(2) 2DR-tree 叶 结 点 项 。 数 据 结 构 为 二 元 组 (MBR， treePtr, polyPtr, ptr)。 

Q@ MBR: 包含 该 条 路 径 上 所 有 移动 对 象 的 最 小 外 接 矩 形 , 每 个 叶子 结 点 只 包含 一 条 
路 径 。 

@ treePtr: 双向 指针 ,指向 路 径 哈 希 表 。 

@ polyPtr: 指向 路 径 实际 存储 的 物理 位 置 。 

@ ptr: 指向 下 层 R 树 森 林 的 指针 ,对 应 于 该 条 路 径 上 的 移动 对 象 。 

(3) Hash 表 。 用 于 快速 定位 上 层 R 树 的 叶子 结 点 中 的 路 径 ，Hash 表 数 据 项 结构 为 二 
元 组 (roadsid，treePtr) 。 

OO roadsid: 叶 结 点 中 路 径 的 标识 符 。 

@ treePtr: 指向 上 层 2DR-tree 叶子 结 点 对 应 的 路 段 。 

2) 下 层 2DR-tree 森林 

MON-tree 下 层 部 分 针对 路 网 移动 对 象 建立 索引 ,形成 一 组 索引 时 间 信 息 的 2DR-tree 森 
林 , 用 于 构建 移动 对 象 位 置信 息 。 位 置 数据 项 的 数据 结构 为 二 元 组 ((posi ,poss ) ,Ch ,ts)), 实 
际 上 也 可 将 该 二 元 组 看 作 是 一 个 MBR，posi 、poss E (0, 1) ,分 别 表示 所 和 忆 时 刻 位 置 。 

(1) 2DR-tree 叶 结 点 项 。 数 据 结构 为 一 个 二 元 组 (MBR ,roadsid，objid) 。 

Q@ MBR: 包围 该 对 象 的 最 小 限定 矩形 。 

@ roadsid: 路 径 标识 符 。 

@ objld: 移动 对 象 标识 符 。 

(2) 非 叶子 结 点 数据 项 。 与 上 层 非 叶 子 结 点 数据 项 类 似 且 含义 相同 。 

不 同 于 FNR-tree 只 以 路 网 中 路 段 作为 索引 单位 ,MON-tree 可 适用 于 静态 路 网 模型 中 
的 两 种 模型 , 即 面向 路 段 和 面向 路 径 模 型 ,对 于 不 同 应 用 而 灵活 选取 所 需要 的 数据 模型 。 基 
于 两 种 路 网 模型 的 MON-tree 结构 如 图 8-18 所 示 。 为 了 确定 ,以 下 讨论 MON-tree 时 采用 
面向 路 径 模 型 。 

当 MON-tree 采用 路 径 为 索引 单位 时 ,能 够 减少 叶子 结 点 个 数 ,储存 数据 比 FNR-tree 
更 为 简洁 ,这 样 不 仅 减少 了 记录 个 数 ,而 且 降 低 了 在 表示 移动 对 象 跨越 不 同 下 层 2DR-tree 
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8-18 ”MON-tree 索引 结构 示例 


时 的 工作 量 。 实 验 表明 ,相对 于 FNR-tree, MON-tree 具有 更 好 的 系统 性 能 。MON-tree 采 
用 面向 路 径 模型 时 ,可 能 会 由 于 路 径 过 长 而 产生 死 空 间 。 

MON-tree 支持 对 移动 对 象 的 窗口 查询 和 历史 轨迹 查询 ,但 缺乏 对 时 间 信 息 管理 和 对 
网 络 拓扑 空间 的 持续 性 优化 ,所 以 关于 时 间 片 的 查询 效率 较 低 且 不 支持 最 近邻 查询 。 

2. 窗口 查询 和 插入 更 新 

MON-tree 主要 适合 于 窗口 查询 。 由 于 需要 记录 历史 数据 ,数据 更 新 主要 是 插入 操作 。 

1) 窗口 查询 

窗口 查询 (范围 查询 ): 输入 查询 窗口 参数 w= (pi.poshi, 总) 一 (zz NY, ,ty) 后 
相应 查询 步骤 如 下 。 

(1) 在 上 层 2DR-tree 中 查询 与 r==(zi, zs， yi， yz) 相 交 的 路 径 ( 折 线 )MBR, 得 到 路 径 ID。 

(2) 根据 得 到 的 路 径 ID ,查询 相应 路 径 的 存储 数据 (Polyline Representation) ,获取 与 7+ 
相交 得 到 折线 间隔 (Polyline Intervals) 的 集合 .并 将 这 些 间隔 转换 为 查询 窗口 集合 w' = 
{Cpuspazstis ty) (pm pr :tists)} nn(1) 表 示 集 合 中 窗口 个 数 。 

(3) 调用 经 典 的 R-tree 查询 算法 ,将 得 到 的 w' 中 每 个 查询 窗口 对 应 的 MBR 在 相应 底 
层 2DR-tree 中 进行 查询 匹配 ,以 得 到 最 终 查询 结果 。 

2) 插入 更 新 

MON-tree 中 数据 插入 存在 如 下 两 种 情形 。 

(1) 路 径 插入 。 路 径 插 入 相对 简单 ,只 需 向 Hash 表 中 直接 加 入 线段 ID 即 可 ,插入 记 
录 项 为 (polyId,，null) 。 巾 于 是 新 增 路 径 ,尚未 存储 移动 对 象 在 该 路 径 上 的 运动 信息 ,因此 


该 路 径 对 应 的 下 层 2DR-tree 指针 为 空 。 如 果 发 生 移动 对 象 在 该 线段 上 运动 ,就 为 其 构建 下 
层 2DR-tree ,修改 相应 空 指针 为 指向 该 2DR-tree 的 实际 指针 ,并 插入 该 路 径 到 顶层 的 2DR- 
tree 中 。 如 此 可 减 小 顶层 2DR-tree 的 规模 ,避免 对 其 查询 时 可 能 产生 的 不 必要 开销 。 

(2) 运动 信息 插入 。 插 入 记录 项 为 (mold,polyId,p,t)。 其 中 mold 为 移动 对 象 ID; 
polyId 为 线段 ID; p 为 移动 对 象 在 线段 上 的 始点 和 终点 且 p 二 (pi; ps); 1 为 移动 对 象 在 线 
段 上 时 间 期 间 且 上 一 Ga ,ts)。 

首先 ,运动 信息 插入 算法 在 Hash 表 中 通过 polyId 搜索 相应 线段 ,如 果 线 段 对 应 的 底层 
2DR-tree 为 null, 则 新 建 一 棵 2DR-tree, 将 Hash 表 中 相应 的 null 替换 为 指向 该 R-tree 的 
指针 ,并 将 表示 该 线段 的 MBR 插入 顶层 的 2DR-tree, 其 次 通过 经 典 R-tree 插入 算法 将 
STR(p1， pa， ts) 插入 到 新 建 的 底层 2DR-tree。 


本 章 小 结 


时 空 数据 库 在 逻辑 上 可 以 看 作 是 SDB 和 TDB 的 整合 ,主要 研究 形状 和 位 置 随 着 时 间 
演进 都 发 生 改 变 的 空间 对 象 的 存储 与 管理 。 从 理论 上 考虑 ,MOD 属于 时 空 数据 库 范畴 ,其 
基本 特征 是 当时 间 变 化 时 ,重点 考虑 相应 空间 对 象 位 置 的 改变 。 随 着 GPS 技术 的 发 展 和 移 
动 通信 终端 设备 的 普及 ,产生 了 大 量 的 只 考虑 位 置信 息 而 不 考虑 其 自身 形状 的 移动 对 象 位 
置 数据 ,由 此 就 产生 了 有 效 管理 移动 对 象 数据 的 巨大 应 用 需求 ,这 就 是 移动 对 象 数据 库 出 现 
和 发 展 的 实际 背景 。 

常规 数据 库存 储 和 管理 通常 都 是 已 经 发 生 了 进入 “过 去 "范畴 的 数据 ,而 移动 对 象 管理 
的 一 个 突出 特征 却 是 需要 管理 移动 对 象 的 当前 位 置 数据 和 适当 预测 不 久 将 来 的 位 置 数据 ， 
从 而 提供 具有 广泛 实用 需求 的 位 置信 息 服务 。 这 也 成 为 现代 数据 管理 技术 的 一 项 重要 挑 
战 。 移 动 对 象 数据 库 中 的 核心 技术 大 多 都 是 围绕 这 一 中 心 点 展开 的 。 

当然 ,管理 移动 对 象 * 过 去 "位置 数 据 信息 对 于 移动 对 象 数据 库 也 必 不 可 少 , 其 基本 
思路 就 是 对 R-tree 进行 多 种 途径 的 技术 拓展 以 适应 新 的 情形 。 因 此 需要 处 理 两 个 方面 
的 问题 : 一 是 移动 对 象 的 移动 轨迹 ,二 是 在 给 定 路 径 上 移动 对 象 的 位 置 。 当 前 ,对 于 给 定 
路 径 上 移动 对 象 位 置 数据 管理 是 领域 研究 的 热点 之 一 ,也 称 为 基于 路 网 的 移动 对 象 数 据 
管理 。 

路 网 移动 对 象 数据 管理 的 特点 是 可 以 通过 引入 相对 距离 函数 而 将 涉及 的 空间 维度 由 一 
般 情况 下 的 “二 维 ” 降 低 为 “一 维 ”, 从 而 只 需 处 理 “ 二 维 时 空 " 即 可 。 从 技术 设计 与 实现 角度 ， 
较 低 的 维度 相对 于 较 高 的 维度 具有 更 为 明显 和 有 效 的 优势 。 

与 所 有 新 型 数据 管理 技术 一 样 ,由 于 还 没有 成 熟 的 DBMS, 相 应 的 数据 查询 主要 都 是 依 
赖 于 相应 的 数据 索引 技术 。 例 如 ,在 时 空 数据 库 .XML 数据 库 和 MOD 中 ,数据 索引 技术 始 
终 是 人 们 关注 的 重点 之 一 。 基 于 “当前 "和 “将 来 ”的 移动 对 象 索 引 技 术 主 要 包括 建立 适当 的 
运动 轨迹 (预测 ) 函数 和 围绕 函数 处 理 的 相应 技术 ; 基于 * 过 去 ”的 移动 对 象 索引 技术 内 核 还 
是 R-tree, 如 路 网 移动 对 象 数 据 索 引 的 架构 分 为 两 层 , 上 层 使 用 经 典 R-tree 索引 路 网 数据 ， 
下 层 通常 使 用 改进 的 R-tree 索引 移动 对 象 数据 信息 。 窗 口 查询 和 最 近邻 查询 是 移动 对 象 
数据 最 基本 的 数据 查询 形式 。 
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第 9 章 大 数据 技术 简 述 





随 着 计算 机 技术 全 面 融入 社会 经 济 文化 生活 ,信息 增长 已 经 达到 了 一 个 能 够 引发 变革 
的 轿 新 阶段 。 移 动 互联 社交 网 络 、 物 联网 和 云 计算 等 极 大 拓展 了 互联 网 的 边界 和 应 用 范 
围 ,各 种 数据 正在 迅速 增长 的 同时 ,其 增长 速度 也 在 加 快 ,这 不 仅 使 世界 充斥 着 比 以 往 更 多 
的 信息 ,而 且 数据 内 容 越 来 越 丰富 ,数据 关系 越 来 越 复杂 ,以 及 数据 更 新 频率 也 越 来 越 高 ,由 
此 创造 出 了 “大 数据 ”的 新 概念 及 其 相关 技术 。 如 今 , 大 数据 几乎 应 用 到 了 人 们 生产 、 工 作 和 
生活 所 涉及 的 各 种 行业 、 部 门 和 领域 中 。 

当前 ,大 数据 比较 集中 在 基于 互联 网 络 的 社会 经 济 活动 和 人 际 交 互 活动 ,这 就 使 得 大 数 
据 与 常规 的 数据 概念 有 着 基本 的 差异 ,也 给 数据 管理 新 技术 发 展 带 来 了 挑战 和 机 遇 。 实 际 
上 ,大 数据 技术 的 出 现 使 得 已 有 的 各 类 巨 量 数据 成 为 有 可 能 挖掘 出 更 大 潜在 价值 的 软 黄金 
资产 ,这 种 数据 资产 也 许 比 其 他 固有 资产 更 具有 含金量 。 同 时 ,大 数据 的 影响 并 不 局 限于 数 
据 管理 技术 领域 ,因为 一 种 新 型 技术 可 以 对 人 们 社会 生活 ` 经 济 活动 及 思维 方式 等 方方面面 
产生 广泛 而 深远 的 影响 ,从 而 有 可 能 开辟 一 个 轩 新 的 时 代 。 计 算 机 技术 开辟 了 信息 时 代 , 互 
联网 技术 开辟 了 网 络 时 代 , 人 们 至 少 从 计算 机 应 用 角度 考虑 而 有 理由 相信 ,大 数据 技术 或 许 
有 可 能 开辟 出 一 个 数据 科学 新 时 代 。 

本 章 简要 介绍 大 数据 的 概念 ,大 数据 特征 及 应 用 ,并 从 数据 管理 角度 介绍 基于 大 数据 管 
理 的 数据 库 技术 。 


9.1 大 数据 基本 概念 


大 数据 是 21 世纪 第 一 个 十 年 过 后 发 展 起 来 的 一 种 新 型 数据 管理 技术 ,其 概念 的 内 涵 和 
外 延 仍 在 不 断 完善 成 熟 的 过 程 中 。 

大 数据 (big data) 首 先是 一 类 数据 ,而 数据 本 身 就 是 一 个 难以 精准 定义 的 抽象 的 伞 形 概 
念 。 如 果 给 数据 挂 上 相对 具体 的 实用 场景 ,如 从 计算 机 存储 管理 数据 视角 审视 数据 ,或 许 能 
够 通过 相关 特征 来 对 特定 数据 对 象 进行 逻辑 概括 和 技术 界定 。 在 实际 应 用 过 程 中 ,基于 计 
算 机 管理 的 “数据 ?可 以 具有 3 个 不 同 的 认 知 层面 : 数据 集合 的 “数据 自身 特征、 数据 管理 
的 “技术 处 理 ” 特 征 和 数据 使 用 的 “领域 应 用 ”特征 。 其 中 ,前 两 个 特征 属于 计算 机 科学 技术 
范畴 ,而 后 一 个 特征 具有 更 多 非 计算 机 的 领域 刻画 。 

对 于 所 熟知 的 RDB 而 言 ,其 “数据 自身 ”特征 就 是 具有 简单 明了 的 平面 表 结 构 , 基 本 数 
据 对 象 (如 元 组 ) 没 有 语义 顺序 强制 要 求 ,能 够 作为 元 素 集合 进行 相对 方便 易 行 的 存储 管理 
等 ; 其 “技术 处 理 ” 特 征 就 是 由 于 其 建立 在 集合 运算 基础 之 上 查询 与 更 新 机 制 ,标准 和 完善 
的 数据 管理 原理 语言 ,能 够 实现 非 导 航 式 查询 和 事务 管理 功能 ; 其 “领域 应 用 ”特征 就 是 主 
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要 用 于 商业 、 金 融和 服务 业 等 行业 内 的 事务 管理 业务 。 

大 数据 应 当 是 比 关 系数 据 和 对 象 数据 等 现 有 计算 机 实施 有 效 管理 的 数据 集合 更 为 复杂 
的 数据 “类 型 ,为 了 比较 清楚 地 厘清 和 把 握 其 概念 含义 ,通过 “数据 自身 “管理 技术 ”和 “ 领 
域 应 用 ?等 计算 机 数据 不 同 的 认 知 层面 或 许 是 有 所 神 益 的 。 


9.1.1 大 数据 自身 组 成 特征 


如 前 所 述 ,关系 数据 主要 来 源 于 联机 事务 处 理 , 对 象 数据 主要 着 眼 于 多 媒体 数据 .XML 
数据 主要 满足 网 络 数据 应 用 需求 等 。 实 际 上 ,所 涉及 数据 的 来 源 就 决定 了 其 各 类 特征 的 基 
本 因素 。 为 了 讨论 大 数据 作为 “数据 本 身 ” 的 特征 ,也 需要 始 于 大 数据 的 实际 来 源 。 

1. 大 数据 基本 来 源 

随 着 计算 机 网 络 技术 的 发 展 和 移动 通信 设备 的 普及 ,社交 网 络 .电子 商务 、 物 联网 和 云 
计算 带 给 了 人 们 在 社会 和 经 济 生活 形式 方面 的 巨大 变化 ,使 得 人 们 各 项 活动 越 来 越 依赖 于 
计算 机 网 络 ,也 就 是 说 , 越 来 越 网 络 化 。 这 种 由 互联 网 连接 起 来 的 是 一 个 由 大 量 活动 构件 与 
多 元 参与 者 构成 的 生态 系统 ,由 终端 设备 、 基 础 设施 、 网 络 服 务 提供 者 与 接 入 服务 提供 商 、 数 
据 服务 提供 零售 商 和 数据 服务 使 用 者 等 一 系列 活动 者 共同 构建 。 物 联网 、 云 计算 和 移动 互 
联网 框架 平台 ,个 人 计算 机 、 智 能 手机 和 平板 电脑 及 各 类 传感器 等 承载 方式 等 ,共同 构成 了 
大 数据 各 类 来 源 的 技术 通道 。 上 述 数据 的 一 个 共同 特点 就 是 位 于 网 络 空间 之 中 ,人 们 通常 
将 其 称 为 网 络 空间 中 的 数据 资源 ,并 将 这 种 资源 称 为 “数据 界 ”。 这 也 就 是 说 明 , 大 数据 的 主 
体 主要 来 自 “ 数 据 界 ”而 不 是 借 道 于 其 他 的 途径 获取 。 数 据 实际 上 来 自 于 实体 之 间 的 交互 ， 
物 和 物 的 交互 就 会 得 到 各 类 相互 作用 和 关联 的 数据 ,人 和 物 的 交互 就 会 得 到 各 类 测量 和 感 
知 数据 ,人 和 人 的 交互 就 会 得 到 各 种 社会 交往 数据 等 。 网 络 时 代 使 得 物 、 人 等 实体 之 间 的 交 
互 和 彼此 关联 达到 前 所 唯 未 有 的 广度 和 深度 ,由 此 产生 的 数据 就 构成 大 数据 的 基本 源泉 。 

从 应 用 技术 角度 考虑 ,主要 有 以 下 几 种 类 型 的 大 数据 来 源 。 

1) 交易 管理 型 数据 

政务 部 门 数据 系统 和 企业 内 部 数据 系统 等 数据 库 数据 ,主要 有 政务 管理 信息 、 联 机 交易 
数据 和 联机 分 析 数 据 等 类 型 ,其 中 包括 人 口 普查 数据 、 电 子 商 务 交 易 数 据 、 线 下 实体 店 销售 
数据 与 分 析 数 据 等 。 这 些 数据 记录 过 去 发 生 的 事项 ,需要 完整 精细 地 进行 记录 存储 。 作 为 
结构 化 .静态 和 历史 的 数据 ,它们 通常 使 用 关系 数据 库 进 行 管理 和 访问 。 

2) 交互 型 数据 

随 着 互联 网 和 物 联 网 等 技术 快速 发 展 ,交互 型 数据 迅猛 增长 且 具 有 多 种 类 型 。 

(1) 互联 网 上 电子 邮件 、 新 闻 、 网 络 日 志 、 微 博 微 信 、 视 频 网 站 、 通 信 及 其 他 来 源 的 社交 
媒体 数据 ,包括 视频 、 图 片 和 文本 等 类 型。 

(2) 物 联 网 、 移 动 设备 和 个 人 位 置 等 各 类 传感器 采集 的 数据 ,如 设备 和 传感器 信息 、 
GPS 和 地 理 定位 映射 数据 等 。 

(3) 通过 管理 文件 传输 Manage File Transfer 协议 传送 的 海量 图 像 文 件数 据 ,如 天 文 望 
远 镜 拍摄 的 图 像 .视频 数据 和 气象 学 卫星 云图 数据 等 。 

交互 数据 主要 由 半 结 构 化 和 非 结构 化 数据 组 成 ,主要 功能 在 于 记录 发 生 了 哪 种 事项 。 

3) 分 析 型 数据 

掌握 和 存储 巨 量 数据 的 很 多 用 户 都 会 开始 想方设法 将 “数据 ”转换 为 “资产 ”, 从 数据 海 


洋 中 分 析 和 挖掘 有 价值 的 信息 ,为 企业 和 单位 行为 提供 科学 合理 的 决策 依据 。 因 此 ,在 数据 
处 理 过 程 中 产生 大 量 分 析 性 数据 。 例 如 ,淘宝 会 根据 每 个 用 户 的 个 人 购买 与 浏览 记录 ,分析 
其 购买 习惯 ,与 购买 相同 商品 的 用 户 进行 相关 性 分 析 等 ,为 每 个 用 户 定制 个 性 化 的 推荐 列 
表 。 这 些 数 据 正 是 大 数据 的 价值 所 在 .其 特征 是 判断 当前 发 生 事项 ,预测 将 来 又 可 能 发 生 些 
什么 。 

2. 大 数据 自身 特征 

大 数据 的 基本 来 源 决定 了 大 数据 的 各 类 基本 特征 。 

1) 数据 类 型 多 样 性 

由 于 网 络 空间 已 经 涵盖 了 人 和 人 的 交互 (互联 网 )\ 人 和 物 及 物 和 物 的 交互 ( 物 联网 ) , 因 
此 大 数据 自身 特性 首先 就 是 来 源 多 样 性 以 及 带 来 的 类 型 互 异性 。 例 如 ,基于 环境 生态 的 大 
数据 包括 地 理 地 质 海洋 气候 流行 病 与 传染 病 、 社 会 种 族 结构 与 社会 经 济 生活 等 诸多 来 源 
的 各 类 数据 ,因此 这 些 数 据 的 类 型 与 描述 格式 也 有 很 大 差异 ,这 些 类 型 各 异 的 情形 对 数据 处 
理 能 力 提出 了 更 高 的 要 求 。 

2) 数据 量 级 超大 性 

从 理论 上 讲 , 网 络 空间 能 够 触及 地 球 村 中 所 有 的 人 和 物 , 因 此 所 产生 的 数据 量 必然 巨 
大 。2008 年 世界 科技 界 权威 刊物 Nature 曾经 在 2008 年 出 版 了 一 期 大 数据 专刊 。 在 这 期 刊 
物 的 封面 ,除了 如 今 广 为 人 知 的 big data 字样 外 ,还 特别 在 其 后 标 上 science in the Petabyte 
era (科学 处 在 PB 时代)。 正 如 其 所 预见 的 那样 ,现今 大 数据 发 展 表明 数据 量 已 经 进入 到 
PB 级 别 ,通常 人 们 也 就 认为 这 就 是 “大 数据 ?的 数量 级 标志 。 这 种 规模 数据 的 存储 与 管 
理 是 常规 数据 库 技 术 难 承担 的 ,由 此 也 就 构成 了 大 数据 有 别 于 常规 “海量 ?数据 的 量 级 
特征 。 

3) 数据 价值 低 密度 性 

大 数据 通常 需要 长 时 间 积累 ,因此 组 建 大 数据 集合 是 一 项 费时 、 费 力 和 花费 大 量 资源 的 
工程 。 虽 然 大 数据 是 宝贵 的 财富 资源 ,但 在 实际 应 用 中 ,数据 量 的 增加 并 不 意味 着 数据 价值 
显 式 的 同步 增长 ,因此 超大 量 级 的 数据 中 相应 的 数据 价值 密度 却 可 能 很 低 , 如 在 视频 监控 
中 ,长 时 间 连 续 不 间断 监控 过 程 往往 仅 有 一 两 秒 的 有 用 数据 信息 。 如 何 通 过 强大 的 机 器 算 
法 更 迅速 地 完成 全 样本 处 理 数据 的 价值 “提纯 ”, 已 成 为 目前 大 数据 背景 下 吸 待 解决 的 技术 
难题 。 这 种 数据 高 容量 和 价值 低 密度 构成 大 数据 集合 又 一 有 别 于 常规 数据 的 基本 特征 。 

4) 价值 实现 的 时 效 性 

实时 有 效 的 数据 查询 是 所 有 计算 机 数据 管理 技术 的 基本 要 求 。 大 数据 由 于 数据 量 巨 
大 ,相对 于 常规 数据 处 理 的 实时 性 在 大 数据 技术 中 往往 需要 放宽 到 处 理 结果 的 时 效 性 , 即 在 
预期 时 间 内 获得 大 数据 处 理 结果 。 由 于 社会 生活 和 经 济 活动 中 人 和 人 ,人 和 物 及 物 和 物 的 
交互 都 有 时 间 期 间 的 界定 ,超出 了 界定 时 间 ,交互 就 有 可 能 毫 无 意义 ,因此 如 果 不 能 在 希望 
的 时 间 之 内 完成 大 数据 处 理工 作 ( 如 后 所 述 ,主要 是 决策 支持 等 ) ,即使 大 数据 中 存在 很 大 价 
值 ,这 种 超 预 期 时 间 的 价值 也 就 没有 了 任何 意义 。 


9.1.2 大 数据 管理 技术 特征 


大 数据 的 来 源 确定 了 大 数据 不 同 于 常规 数据 的 自身 特征 ,而 在 通过 计算 机 管理 大 数据 
过 程 中 ,依据 这 些 自身 特征 也 就 确定 了 大 数据 的 各 类 技术 特征 。 现 今 得 到 人 们 比较 一 致 认 
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可 的 大 数据 概念 实际 上 多 是 基于 大 数据 自身 特征 而 从 技术 处 理 特 征 层 面 所 提出 来 的 。 例 
如 ,在 1997 年 , 当 Michael Cox 和 David Ellsworth 首次 提出 “大 数据 ”概念 时 就 指出 ,对 于 
数据 量 大 到 内 存 、 本 地 磁盘 甚至 远程 磁盘 都 不 能 处 理 的 一 类 数据 可 视 化 的 问题 称 为 大 数据 。 
这 是 首次 将 数据 量 级 特性 与 数据 技术 结合 而 给 出 的 相关 定义 。 此 后 ,经 过 人 们 的 不 断 探讨 
和 完善 ,现今 通常 接受 和 采用 的 是 麦肯锡 全 球 研究 所 (McKinsey Global Institute) 在 2011 
年 给 出 的 4V 定义 , 即 数据 规模 巨大 (Volume) 数据 类 型 众多 (Variety) ,数据 处 理 时 效 性 强 
(Velocity) 和 数据 价值 密度 低 CValue) 。 基 于 4V 的 大 数据 定义 实际 上 就 是 大 数据 处 理 过 程 
所 应 该 具有 的 技术 特征 。 

1. 大 数据 量 技术 处 理 特征 (Volume) 

伴随 着 社交 网 络 ,移动 计算 和 传感器 等 新 的 渠道 和 技术 的 不 断 涌现 和 应 用 ,世界 上 每 时 
每 刻 都 在 产生 过 去 难以 想象 的 “很 大 很 大 ”的 数据 量 。 计 算 机 数据 运算 和 储存 以 字 节 B 
(byte) 为 单位 , 接 下 来 依次 增 大 使 用 的 单位 分 别 为 KB(Kilobyte)、MB(Megabyte 兆 字 节 )、 
GB(Gigabyte, 吉 字 节 )、TB(Trillionbyte, 太 字 节 )、PB(Petbyte, 拍 字 节 ) 、.EB(Exabyte, 艾 字 
节 ) .ZB(Zettabyte, 泽 字 节 ) 和 YB(Yottabyte, 尧 字 节 ) ,这 些 数据 单位 序列 的 换算 关系 是 后 
者 分 别 为 前 者 的 2*= 二 1024 倍 。 

根据 统计 ,进入 21 世纪 后 的 第 二 个 十 年 ,各 个 应 用 单位 计算 机 系统 实际 数据 量 已 从 TB 
级 分 别 跃升 到 PB(1PB==1024TB) 、EB(1EB 王 1024PB) 乃 至 ZB(1ZB 王 1024EB) 级 。 对 于 雇 
员 人 数 超过 1000 人 的 几乎 所 有 美国 企业 ,自身 的 数据 存储 量 大 都 超过 了 200TB, 而 且 不 少 
企业 平均 还 达到 了 PB 级 别 。 全 球 企业 在 硬盘 上 的 数据 存储 量 早 已 超过 了 7EB。2010 年 欧 
洲 组 织 的 存储 总 量 约 为 11EB, 整 个 美国 数据 存储 总 量 约 为 16EB。PC 和 笔记 本 电脑 设备 上 
个 人 存储 量 超过 了 6EB。 国 际 数据 资讯 公司 (IDC) 研 究 结果 明 ,2009 年 全 球 产生 数据 量 为 
0. 8ZB,2010 年 增长 到 1. 2ZB,2011 年 已 达到 1. 82ZB, 这 相当 于 全 球 每 人 产生 200GB 以 上 
的 数据 。 与 此 相对 比 , 美 国 国会 图 书馆 2011 年 存储 的 数据 约 为 1/4000 EB。IBM 的 研究 以 
此 据 称 ,整个 人 类 文明 所 获得 的 全 部 数据 中 有 90% 是 过 去 两 年 内 产生 的 。 根 据 IDC 监测 ， 
全 球 数 据 量 大 约 每 两 年 翻 一 番 . 预 计 到 2020 年 ,全 球 将 拥有 35ZB 的 数据 量 ,数据 规模 将 达 
到 当今 的 44 售 。 

在 实际 应 用 中 ,作为 数据 资源 ,人 们 当然 不 能 赁 空 就 可 获得 相应 的 大 数据 。 问 题 在 于 ， 
即使 具有 数据 理论 上 的 占有 权 或 者 得 到 了 数据 获取 许可 , 面 对 如 此 巨大 的 数据 ,如 何 才能 将 
其 或 者 将 其 与 已 相关 部 分 收入 寺中 呢 ? 况且 ,由 于 相关 成 功 的 案例 和 数据 的 资源 性 质 日 益 
昭然 ,从 人 们 的 主观 意愿 来 看 ,总 是 占有 的 资源 越 多 越 好 ,或 者 至 少 要 比 别 人 知道 的 数据 更 
多 ,占有 的 数据 更 广 。 由 此 ,如 何 获 得 以 PB 级 别 为 目标 的 数据 就 成 为 大 数据 技术 首先 需要 
解决 的 问题 。 实 际 已 经 证 明 ,使 用 常规 数据 获取 方法 难以 得 到 PB 级 别 数据 , 那 就 需要 新 的 
以 搜索 . 怜 取 和 高 速 下 载 为 特征 的 大 数据 获取 技术 。 

2. 多 种 类 型 技术 处 理 特 征 (Variety) 

如 此 数量 庞大 和 快速 增长 的 大 数据 ,如 前 所 述 ,不 是 只 具有 单一 的 来 源 渠 道 ,而 是 呈现 
出 多 样 化 的 显著 特征 。 大 数据 并 不 简单 地 只 是 “ 量 ” 的 巨大 和 爆炸 性 的 增长 ,而 是 由 于 数据 
来 源 渠道 不 同 带 来 数据 类 型 的 多 种 形式 ,由 此 形成 了 大 数据 的 第 二 个 基本 特征 : 数据 类 型 
多 样 性 ,实际 上 也 就 产生 了 计算 机 存储 管理 方面 的 巨大 挑战 。 应 用 中 选 定 的 数据 库 大 多 都 
只 能 存储 管理 一 种 结构 类 型 的 数据 ,如 RDB 就 只 能 存储 管理 表示 为 结构 化 的 二 维 关系 表 数 


据 等 。 大 数据 来 源 于 互联 网 和 各 类 传感器 等 ,这 些 大 多 都 是 半 结 构 或 非 结 构 化 数据 。 现 有 
统计 表明 ,全球 结构 化 数据 年 增长 率 只 有 32% 。 而 非 结 构 化 数据 年 增长 率 却 为 63%。 在 
2012 年 , 非 结构 化 数据 在 整个 互联 网 数据 中 的 占 比 已 经 超过 75% ,而 其 中 85% 以 上 的 数据 
都 是 音频 、 视 频数 据 和 网 页 数据 等 。 巨 量 多 来 源 数据 的 存储 管理 、. 跨 界 域 数 据 的 访问 与 计算 
等 是 此 时 有 别 于 常规 技术 的 大 数据 技术 挑战 ,当前 大 数据 存储 相关 技术 主要 有 分 布 式 文件 
系统 (基于 Hadoop 框架 的 HDFS) NoSQL 数据 库 .虚拟 存储 和 云 存储 技术 等 。 

3. 时 效 性 技术 处 理 特 征 (Velocity) 

大 数据 的 “大 ”, 除 了 数据 量 在 日 益 增 大 外 ,还 表现 为 数据 量 增长 的 速度 也 在 逐年 增 大 ， 
即 大 数据 增长 和 收集 的 速度 越 来 越 快 。 互 联网 中 连接 的 设备 越 来 越 多 ,随时 都 有 越 来 越 多 
的 人 在 进行 网 上 交易 .发帖 跟 帖 和 上 传 音频 视频 等 。 同 时 由 于 通信 技术 的 发 展 , 数 据 收集 速 
度 也 越 来 越 快 , 即 数据 在 网 络 中 的 流动 加 快 。 由 此 就 有 所 谓 的 “一 秒 钟 定律 ?之 说 , 即 在 现实 
网 络 空间 中 ,人 们 实际 上 是 在 完成 着 如 下 事项 。 

每 一 秒 钟 ,发 送 290 万 封 电 子 邮 件 。 

每 一 分 钟 ,向 YouTube 上 传 60 小 时 的 视频 。 

每 一 天 ,在 Twitter 上 推送 1.9 亿 条 微 博 ,并 且 发 出 3. 44 亿 条 消息 。 

每 一 天 ,在 Facebook 上 发 出 40 亿 条 信息 。 

注意 到 网 络 空间 实际 上 使 得 人 与 人 、 人 与 物 和 物 与 物 交互 范围 的 倍增 ,而 交互 响应 需要 
有 时 间 范 围 的 界定 ,也 就 是 说 数据 的 产生 频率 增 大 实际 上 也 必然 会 有 数据 使 用 频率 的 增 大 ， 
这 样 ,网 络 空间 中 ,从 数据 生成 到 数据 使 用 或 数据 消耗 ,相应 的 时 间 窗 口 会 变 小 或 更 为 严格 ， 
即 可 以 用 于 接收 到 数据 信息 的 反应 (如 生成 决策 ) 时 段 将 有 严格 的 限定 。 获 取 数 据 到 做 出 决 
策 需要 使 用 数据 分 析 与 数据 挖掘 相关 技术 ,由 于 前 述 大 数据 的 时 效 性 特点 ,相应 的 技术 与 非 
大 数据 环境 中 的 也 会 有 明显 区 别 和 本 质 不 同 ,由 此 需要 新 的 更 有 效 的 与 “时 效 性 ” 相 适 应 的 
大 数据 技术 。 

4. 低 价值 密度 技术 处 理 特征 (Value) 

大 数据 蕴含 大 价值 ,但 却 是 犹如 大 海中 拥有 大 宝藏 。 由 于 大 海 之 大 ,从 中 获取 宝藏 通常 
被 人 们 看 作 是 “大 海 捞 针 ”, 这 也 就 是 说 ,相对 于 大 海 的 体 量 ,大 海中 宝藏 就 具有 “ 低 密度 性 ”。 
在 实际 问题 中 ,如 果 数 据 没 有 价值 或 还 有 更 大 价值 的 其 他 数据 ,那么 人 们 就 不 会 关注 其 价值 
获取 技术 ; 如 果 数 据 量 大 ,而 大 部 分 数据 都 具有 明显 的 价值 指向 ,价值 提取 没有 新 的 技术 难 
度 , 那 么 可 以 考虑 使 用 或 借鉴 常规 数据 处 理 技术 ,这 时 数据 尽管 量 大 ,但 应 该 不 属于 人 们 所 
说 的 “大 数据 ?范畴 ; 如 果 大 数据 量 大 而 其 中 价值 密度 很 低 且 又 相当 “隐秘 ”, 难 以 通过 常规 
方法 进行 提取 ,这 就 需要 创建 与 之 相应 的 大 数据 技术 。 此 时 主要 是 各 类 的 数据 分 析 与 数据 
挖掘 技术 。 但 就 当前 状况 而 言 , 面 对 PB 级 别 以 上 的 低 价值 密度 数据 ,还 缺少 有 效 的 数据 分 
析 处 理 和 数据 挖掘 算法 ,同时 也 没有 理想 的 相关 软件 操作 工具 。 如 何 通过 强大 的 机 器 算法 
和 高 级 分 析 技术 更 迅速 地 完成 全 样本 处 理 的 数据 的 价值 提纯 ”, 已 成 为 大 数据 中 或 待 解决 
的 技术 难题 。 

大 数据 4V 技术 特征 如 图 9-1 所 示 。 

通过 上 述 分 析 , 也 可 初步 了 解 “ 大 数据 ”与 常用 的 “海量 数据 "联系 与 区 别 。 实 际 上 ,大 数 
据 包 含 了 海量 数据 ,更 超越 了 海量 数据 的 原 有 内 涵 。 体 量 巨 大 的 结构 化 数据 可 以 看 作 常 规 
意义 下 的 海量 数据 ,而 大 数据 包含 更 多 的 是 半 结 构 化 和 非 结 构 化 的 数据 ,同时 带 来 复杂 类 型 
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9-1 大 数据 4V 技术 特征 


的 数据 处 理 方法 。 海 量 数据 并 不 一 定 都 有 上 述 的 4V 特征 。 对 于 海量 的 结构 化 数据 ,管理 
和 应 用 技术 在 逻辑 上 来 说 比较 “单一 ”, 用 户 通过 购买 容量 更 大 的 存储 设备 和 处 理 速 度 更 快 
的 机 器 装置 等 就 可 提高 相应 的 系统 效率 ; 但 对 大 数据 而 言 , 其 数据 规模 和 类 型 复杂 程度 都 
超出 常用 设备 技术 按照 合理 的 成 本 和 时 限 捕捉 ,管理 及 处 理 的 能 力 ,因此 形成 了 一 个 新 型 的 
更 具 挑 战 性 的 数据 管理 领域 。 


9.1.3 大 数据 领域 应 用 特征 


由 大 数据 来 源 而 产生 的 自身 特征 确定 了 大 数据 管理 的 技术 特征 ,而 无 论 人 们 面临 何 种 
大 数据 技术 挑战 ,其 最 终 都 指向 一 个 目的 : 相关 活动 的 有 效 决策 。 大 数据 应 用 就 是 决策 支 
持 , 即 给 定 一 个 决策 需求 ,通过 获取 数据 和 分 析 数 据 , 最 终 形成 决策 依据 ,这 与 关系 数据 应 用 
于 联机 事务 处 理 、 对 象 数据 应 用 于 多 媒体 数据 管理 和 XML 数据 用 于 半 结 构 化 网 络 数据 的 
整合 交互 等 有 着 较 大 差异 。 

1. 大 数据 应 用 就 是 决策 支持 

从 古 到 今 ,无 论 在 政府 行政 管理 ,战场 战争 发 展 态势 .商业 竞争 逐 利 演进 .科学 研究 进展 
深化 和 日 常 工作 生活 导向 等 过 程 ,成 功 和 取胜 的 基础 要 素 就 是 掌握 更 多 更 有 价值 的 数据 信 
息 、 能 够 在 同一 进程 中 做 到 比 其 他 人 知道 更 多 、 及 时 形成 行动 决心 和 比 其 他 人 更 快 更 正确 地 

决策 可 以 发 生 在 任何 情况 下 和 任何 场合 中 。 从 国家 的 总 体 宏观 决策 .战略 格局 部 署 和 
重大 工程 项 目 确定 到 企业 部 门 的 运营 模式 销售 策略 ,再 到 个 人 周末 的 合适 餐馆 选择 和 度假 
的 精准 行车 路 线 确定 等 。 尽 管 决策 的 层面 不 同 , 但 所 倚 仗 的 数据 通常 都 比较 巨 量 ,具有 多 样 
的 来 源 、 多 种 的 类 型 及 时 效 性 的 限定 等 ,这 就 增加 了 决策 的 复杂 性 和 困难 性 。 这 里 所 涉及 的 
数据 应 用 通常 具有 跨 界 来 源 和 跨 界 应 用 的 特点 ,突破 了 原 有 领域 行业 界限 ,还 会 由 数据 的 
“ 量 增 ” 导 致 的 人 们 决策 方式 的 “质变 ”"。 这 就 是 大 数据 应 用 语 境 中 的 决策 问题 。 

在 信息 时 代 之 前 只 能 采用 基于 人 工 的 决策 方式 ,其 特点 是 依靠 手工 收集 数据 ,使 用 人 脑 
积累 的 经 验 教训 分 析 数 据 , 然 后 凭借 决策 者 自身 的 思维 模式 直觉 地 做 出 决策 。 

进入 信息 时 代 人 们 越 来 越 多 地 使 用 借助 计算 机 系统 进行 决策 支持 ,如 先期 的 计算 机 决 
策 支 持 系统 (Decision Support System,DSS) , 而 后 的 商业 智能 (Business Intelligence,BI) 
等 ,其 特点 是 主要 使 用 信息 化 手段 采集 和 存储 所 需要 数据 ,设计 出 相应 计算 机 应 用 系统 对 所 
具有 的 数据 进行 样本 分 析 ,再 与 已 有 的 成 功 样 例 进 行 比 对 校正 ,最 终 形成 相应 的 决策 。 这 里 


的 关键 点 是 需要 充分 有 效 利用 自身 信息 化 积累 的 数据 来 开展 决策 。 然 而 ,自身 的 数据 积累 
是 一 个 漫长 .费用 高 和 困难 的 工作 ,一 般 只 有 政府 部 门 和 大 型 企业 才 会 有 实力 如 此 实施 
决策 。 

进入 21 世纪 后 , 随 之 而 来 的 是 互联 网 时 代 , 巾 于 计算 机 科学 技术 的 不 断 进步 和 互联 网 
设备 的 普及 应 用 ,不 论 是 政府 ` 组 织 ` 企 业 还 是 普通 个 人 都 越 来 越 有 能 力 获 得 决策 所 需要 的 
各 种 数据 。 网 络 空间 数据 界 中 的 这 些 数据 来 源 不 同 并 且 类 型 多 样 , 其 数量 和 类 型 都 可 以 超 
过 原来 政府 部 门 和 大 型 企业 自身 早起 积累 起 来 的 数据 。 同 时 ,由 于 数据 存储 和 数据 分 析 技 
术 也 取得 了 长 足 进步 ,涉及 各 类 大 数据 的 用 户 都 有 可 能 通过 存储 和 分 析 所 拥有 的 这 些 数据 
以 期 获得 所 需求 的 决策 依据 。 由 此 ,数据 管理 领域 就 出 现 了 一 种 新 型 的 决策 方式 ,这 种 不 同 
于 常规 数据 决策 支持 的 大 数据 应 用 具有 维克托 。 迈 尔 - 舍 恩 伯 格 及 肯 尼 斯 。 库 克 耶 在 (大 数 
据 时 代 ) 一 书 指出 3 个 特征 , 即 由 样本 分 析 到 全 员 分 析 、 由 精确 分 析 到 容错 分 析 和 由 因果 分 
析 到 关联 分 析 。 

2. 样本 分 析 转 向 全 员 分 析 

无 论 是 日 常生 活 , 还 是 在 专业 层面 上 用 高 级 算法 进行 量化 研究 (如 数据 库 查 询 统计 等 ) 
人 类 活动 都 与 数据 有 关 。 记 录 和 存储 工具 的 限制 ,先前 人 们 往往 只 能 收集 相对 于 少量 的 数 
据 用 于 数据 分 析 。 同 时 由 于 数据 分 析 技 术 和 硬件 水 平 的 限制 ,无 法 对 全 部 采集 到 的 数据 进 
行 全 员 上 的 总 体 处 理 , 随 机 采样 也 就 成 为 提取 分 析 的 常规 方法 。 尽 管 基于 统计 学 原理 和 数 
据 挖掘 等 技术 使 得 随机 采样 在 某 些 领域 取得 成 功 , 但 随机 采样 过 程 存 在 着 人 们 通常 意识 到 
却 又 有 意 避 开 的 缺陷 。 

(1) 忽视 细节 微观 信息 。 对 于 一 个 数据 网 络 而 言 ,如 何 得 到 合适 的 数据 范围 界定 以 及 
界定 之 后 又 如 何 获取 满足 最 优 采样 ?标准 的 数据 通常 都 是 一 个 不 易 解 决 的 课题 。 在 实际 问 
题 中 ,随机 采样 得 到 的 “小 ”网 络 难 以 反映 总 体 网 络 所 具有 特性 的 情形 时 有 发 生 , 同 时 还 会 失 
去 对 某 些 特定 子 类 进一步 研究 的 能 力 。 例 如 ,对 于 信息 化 战场 而 言 ,无 论 怎样 的 数据 采用 都 
不 足以 满足 情况 各 异 且 瞬息 万 变 的 战场 ,此 时 对 所 采用 数据 进行 全 员 整 体 分析 就 成 为 决策 
应 用 的 实际 需求 。 

(2) 采样 过 程 缺 乏 延 展 性 。 采 样 分 析 通 常 都 要 事先 设计 需要 解决 的 问题 ,并 按 严 密 步 
又 设计 与 实施 相应 的 随机 采样 过 程 , 无 法 适应 在 调查 过 程 中 临时 提出 的 各 种 要 求 。 当 需 解 
决 事先 未 考虑 到 的 问题 时 就 须 重新 采样 。 也 就 是 说 ,采样 分 析 缺 少 应 用 过 程 需要 的 延展 
性 质 。 

收集 指定 的 数据 并 通过 随机 采样 对 其 进行 分 析 , 是 在 不 可 能 完整 收集 全 体 数 据 和 缺乏 
分 析 全 部 数据 相应 技术 情况 下 的 "无奈 ?选择 ,是 信息 处 理 能 力 受 限 的 “技术 性 ?产物 。 在 大 
数据 技术 框架 下 ,实际 上 具有 对 数据 进行 “全 员 样 本 ”处 理 的 应 用 需求 和 技术 可 能 ,通过 掌握 
更 为 先进 高 效 的 数据 分 析 技 术 使 用 所 具有 的 全 部 数据 以 发 现 由 于 随机 采用 而 被 “人 为 忽略 ” 
而 消失 掉 的 数据 ,实现 更 高 层面 上 的 决策 应 用 。 

例如 ,人 们 主要 是 通过 观察 异常 情况 对 电信 和 和 信用卡 诈骗 进行 识别 ,但 这 只 有 掌握 了 所 
有 相关 数据 才能 做 到 。 美 国 Xoom 公司 在 处 理 跨 境 汇款 业务 过 程 中 分 析 每 一 笔 交 易 的 所 有 
相关 数据 。 在 2011 年 ,Xoom 公司 注意 到 用 "发现 卡 ”从 新 泽 西 州 汇款 的 交易 量 比 正常 情况 
更 多 一 些 , 于 是 就 启动 系统 报警 。 如 果 只 是 进行 随机 采样 ,有 可 能 用 于 分 析 的 每 笔 或 大 部 分 
交易 数据 都 是 合法 的 ,但 经 过 全 样本 分 析 , 能 够 “一 个 不 漏 ? 地 发 现 是 否 有 犯罪 集团 在 试图 
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3. 精确 分 析 转 向 容错 分 析 

从 某 种 意义 上 来 看 ,采用 随机 采样 进行 数据 分 析 看 作 是 “小 数据 时 代 ” 产 物 。 在 小 数据 
时 代 , 收 集 到 的 数据 相对 较 少 ,而 且 受 相应 技术 限制 又 只 对 其 进行 样本 分 析 , 同 时 还 需 确保 
分 析 过 程 中 的 数据 尽量 达到 结构 化 和 精确 化 以 便 精确 计算 以 获取 结论 。 也 就 是 说 ,精确 分 
析 的 思维 方式 实际 上 贯穿 在 采集 .存储 和 分 析 的 全 过 程 中 。 

由 “小 数据 "到 “大 数据 ”应 用 的 重要 转变 之 一 就 是 必须 允许 由 于 存在 不 精确 数据 而 对 常 
规 精确 分 析 思 维 造成 的 挑战 。 对 于 大 数据 应 用 而 言 , 当 拥有 巨 量 实时 数据 时 ,绝对 的 精准 就 
不 再 是 追求 的 主要 目标 ,适当 忽略 微观 层面 上 的 精确 度 ,允许 一 定 程 度 的 混杂 与 错误 ,反而 
可 能 在 宏观 层面 上 拥有 更 好 的 洞察 预见 力 。 在 实际 应 用 中 ,不 精确 有 下 述 两 种 情形 。 

1) 数据 不 精确 

随 着 社交 网 络 、 电 子 商 务 和 移动 通信 设备 的 普及 及 物 联网 和 通信 等 技术 的 发 展 ,通过 简 
单 廉价 方法 收集 全 员 和 全 方位 数据 已 成 为 可 能 ,但 也 必须 为 此 付出 相应 的 代价 ,也 就 是 说 ， 
某 些 错误 的 和 不 完整 的 数据 也 有 可 能 进入 到 所 收集 的 数据 集合 中 。 小 数据 时 代 绝 不 允许 这 
样 的 事情 发 生 ,因为 收集 数据 的 有 限 性 就 意味 着 任何 细微 的 错误 都 可 能 导致 样本 分 析 结 果 
产生 巨大 偏差 。 在 大 多 数 情况 下 ,人 们 都 在 致力 于 优化 测量 工具 以 取得 更 加 精确 的 数据 ,如 
确定 天 体 的 位 置 .观测 显微镜 下 物体 的 形状 大 小 等 。 然 而 ,大 数据 环境 中 收集 的 数据 如 此 之 
多 ,无 法 对 采集 到 的 数据 进行 逐一 的 精 挑 细 选 和 准确 辨识 ,允许 不 精确 的 甚至 有 正 症 的 数据 
出 现在 大 数据 处 理 过 程 中 已 经 成 为 一 个 新 的 常态 而 非 必 须 加 以 克服 的 缺点 。 实 际 上 ,只 有 
在 放松 容错 标准 前 提 之 下 ,才能 够 采集 .存储 和 分 析 各 类 大 量 的 半 结 构 化 和 非 结 构 化 数据 。 

2) 结构 不 精确 

不 精确 数据 还 具有 数据 结构 模式 方面 的 不 精确 性 。 人 们 研究 发 现 , 在 实际 应 用 过 程 中 ， 
人 们 采集 到 的 大 量 数据 只 有 5% 的 数据 是 具有 精确 结构 而 能 适用 于 常规 数据 库存 储 管理 ， 
而 95% 的 部 分 都 是 半 结 构 化 、 非 结构 化 或 难以 确定 结构 的 数据 。 只 有 放宽 对 于 数据 结构 和 
格式 方面 的 精准 性 和 一 致 性 要 求 , 才 有 可 能 达到 所 需要 的 庞大 的 数据 规模 要 求 , 才 有 可 能 无 
须 时 刻 关 注 某 些 数据 出 错 而 对 整个 分 析 的 不 利 影响 。 这 里 ,重要 的 关注 点 是 从 这 些 纷繁 而 
不 精准 的 大 数据 中 获得 神 益 ,而 不 是 一 味 追 求 以 高 昂 的 代价 去 统一 数据 结构 和 类 型 以 及 消 
除 所 有 的 不 确定 性 。 

4. 因果 分 析 转 向 关联 分 析 

大 数据 应 用 方式 还 需要 从 因果 分 析 思 维 转向 关联 分 析 思 维 , 不 再 局 限于 千 百 年 来 形成 
的 思维 模式 和 固有 偏见 ,以 便 更 充分 有 效 地 获取 和 分 享 大 数据 带 来 的 深刻 洞 见 。 

1) 信息 匮乏 引致 因果 思维 

通常 人 们 多 凭借 直观 意义 明确 的 因果 关系 以 寻求 对 自身 所 处 世界 的 理解 ,执着 于 所 面 
对 现象 背后 的 “前 因 后 果 ”, 并 试图 通过 有 限 样本 数据 来 剖析 其 中 的 内 在 机 理 。 求 证 因果 关 
系 需要 先 假设 一 个 因果 关系 的 存在 ,然后 再 收集 数据 进行 测试 。 但 因果 关系 常常 是 难以 证 
明 的 ,因为 从 哲学 上 考虑 ,完全 证 实 因果 关系 几乎 不 可 能 ,而 只 能 考虑 某 两 者 之 间 很 有 可 能 
存在 因果 关系 。 事 实 上 ,由 于 所 掌握 的 信息 匮乏 ,没有 更 多 的 数据 来 解释 说 明 某 种 现象 , 难 
以 通过 有 限 样本 数据 揭示 事物 之 间 普 遍 的 关联 关系 ,只 能 转向 在 有 限 的 数据 中 寻求 因果 关 
系 , 因 此 形成 了 借助 因果 关系 解释 说 明 问题 的 常态 化 分 析 思 维 模式 。 由 于 长 期 以 来 人 们 多 


以 习惯 了 信息 的 匮乏 ,进而 也 就 习惯 了 在 少量 数据 的 基础 上 进行 推理 思考 和 论证 因果 关系 。 

在 大 数据 环境 中 ,由 于 拥有 如 此 之 多 的 数据 和 更 为 有 效 的 数据 分 析 手 段 工 具 , 可 以 通过 
大 数据 技术 更 快 更 容易 地 挖掘 出 事物 之 间 隐 项 的 关联 关系 ,获得 更 多 的 认 知 与 洞 见 , 并 运用 
这 些 认 知 与 洞 见 帮助 人 们 去 捕捉 当前 和 预测 未 来 。 

2) 注重 “其 然 ” 而 非 * 所 以 然 ” 

关联 思维 的 关键 点 在 于 量化 两 个 数据 值 之 间 的 数理 关系 。 关 联 关系 的 “ 强 ” 是 指 当 一 个 
数据 值 增加 时 , 另 一 个 数据 值 很 有 可 能 也 会 随 之 增加 。 例 如 ,谷歌 就 研究 了 当 流 感 疫情 暴发 
时 ,在 一 个 特定 的 地 理 位 置 , 越 多 的 人 通过 谷歌 搜索 有 关 疾 病 的 特定 词 条 ,实际 上 该 地 区 就 
有 更 多 人 患 上 流感 。 这 两 者 之 间 表 现 出 * 强 ”的 关联 关系 。 相 反 ,关联 关 系 的 “ 弱 ” 就 意味 着 
当 一 个 数据 值 增 加 时 , 另 一 个 数据 值 出 现 的 变化 趋势 状态 和 该 数据 及 前 一 数据 的 关联 情形 。 

关联 关系 通过 识别 有 用 的 关联 物 来 分 析 一 个 特定 现象 ,而 不 是 试图 去 揭示 其 内 部 的 运 
作 机 理 。 对 于 关联 关系 而 言 , 只 有 可 能 性 而 无 绝对 性 。 例 如 ,电子 商务 网 站 通过 不 同 商品 销 
量 提取 关联 性 ,为 顾客 推荐 与 其 购买 过 的 商品 关联 关系 “ 强 ” 的 商品 ,但 并 不 表示 网 站 推荐 的 
每 个 商品 都 是 顾客 想 买 的 商品 ,只 能 说 该 商品 被 一 起 购买 的 可 能 性 高 。 实 际 上 ,管理 者 并 不 
需要 知道 购买 A 商品 的 顾客 “为 什么 "会 同时 购买 B 商品 ,只 需 知道 “他 购买 了 B 商品 ”就 足 
够 了 。 在 很 多 情况 下 ,这 种 “ 知 其 然而 不 必 非 要 “ 知 其 所 以 然 ” 就 足以 产生 相当 可 观 的 价值 ， 
那么 按照 奥 卡 姆 剃刀 原则 ,自然 就 没有 了 因果 分 析 的 逐 利 驱 动 。 在 大 数据 应 用 过 程 中 ,人 们 
并 不 需要 非得 让 自己 绞 尽 脑汁 去 探究 现象 背后 的 原因 ,完全 可 以 让 数据 自己 “发 声 ”, 以 便 使 
用 关联 关系 做 到 比 过 往 更 容易 、 更 快捷 和 更 清楚 地 分 析 事 物 。 这 种 运用 关联 思维 的 洞察 力 
足以 重 塑 很 多 行业 ,开辟 出 全 新 的 天 地 。 

在 大 数据 时 代 来 之 前 ,关联 关系 已 被 证 明 其 用 途 。 由 于 可 供 使 用 的 数据 较 少 特别 是 由 
于 收集 数据 费时 费力 ,统计 学 家 们 也 会 证 明 一 种 关系 时 寻找 另 一 个 关联 物 ,然后 再 收集 与 之 
关联 的 数据 进行 关联 分 析 。 同 时 还 会 使 用 建立 在 理论 基础 上 的 某 些 假设 来 证 明 这 个 关联 物 
是 否 真 的 合适 ,这 样 通过 多 次 反复 尝试 才 可 得 出 合适 或 不 合适 的 结论 。 在 这 个 相当 烦琐 的 
过 程 实际 上 是 一 种 人 工 选择 过 程 , 个 人 或 团体 的 偏见 很 容易 导致 在 设立 假设 .应 用 假设 和 选 
择 关联 物 的 过 程 中 出 现 偏差 。 对 于 大 数据 而 言 ,通过 建立 在 人 的 主观 断 测 基础 上 的 关联 物 
监测 方法 已 经 难以 为 继 ,因为 数据 量 太 大 需要 考虑 的 领域 太 过 复杂 ,无 法 进行 关联 物 的 人 工 
选择 。 而 且 在 强大 机 器 计算 能 力 环境 中 ,不 再 需要 只 采样 一 小 部 分 相似 数据 而 可 依据 全 部 
数据 进行 关联 分 析 。 

3) 关联 思维 预测 未 来 

以 关联 关系 分 析 为 基础 进行 预测 是 大 数据 应 用 的 核心 要 素 之 一 。 如 果 事 件 A 和 事件 
了 经常 一 起 发 生 ,就 可 在 关注 到 事件 B 发 生 情 况 下 对 事件 A 发 生 甚至 和 A 一 起 发 生 的 其 他 
事件 进行 预测 。 这 种 关联 预测 分 析 方 法 已 经 被 广泛 地 应 用 于 相关 和 领域。 安大略 理工 大 学 的 
卡 罗 琳 ， 麦 格雷 戈 (Carolyn McGregor) 用 软件 监测 处 理 即时 的 病人 信息 。 在 早产 儿 的 病情 
诊断 系统 中 ,系统 会 监控 16 个 不 同 的 数据 ,如 心率 .呼吸 体温、 血压 和 血 氧 含量 ,这 些 数 据 
可 以 达到 每 秒 钟 1260 个 数据 点 之 多 。 在 早产 儿 出 现 明 显 感染 症状 的 24 小 时 之 前 ,系统 就 
能 监测 到 早产 儿 细 微 的 身体 变化 发 出 的 感染 信号 。 这 些 信 号 人 类 无 法 用 肉眼 看 到 ,但 通过 
计算 机 却 可 以 得 到 。 这 个 系统 依赖 于 关联 关系 而 非 因果 关系 ,从 而 使 得 麦 格雷 戈 发 现 了 一 
些 与 医生 的 常规 见解 相悖 的 关联 关系 ,如 某 些 早 产儿 出 现 稳定 的 生命 体征 却 可 以 表明 病人 
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发 生 了 严重 的 感染 ,而 一 般 认 为 只 有 恶化 的 生命 体征 才 是 全 面 感染 的 征兆 ,但 这 可 能 就 是 直 
觉 犯 下 的 错误 。 对 于 这 种 在 巨 量 数据 基础 上 找 出 的 隐 含 关联 性 ,人 们 会 猜测 早产 儿 的 “ 稳 
定 "的 生命 体征 可 能 并 不 是 病情 好 转 的 标志 ,反而 表明 器 官 是 在 做 好 抵抗 病情 进一步 恶化 前 
的 必要 准备 。 实 际 上 也 许 谁 也 无 法 证 明 这 是 不 是 原因 所 在 ,但 由 于 麦 格雷 戈 发 现 了 这 种 关 
联 关系 ,在 实际 中 就 挽救 了 不 少 早产 儿 的 生命 。 

4) 更 多 类 型 的 关联 分 析 

如 前 所 述 ,在 小 数据 时 代 人 们 也 有 实行 数据 应 用 的 关联 分 析 , 但 由 于 计算 能 力 的 不 足 和 
所 用 技术 的 限制 ,大 部 分 都 局 限于 寻求 获取 线性 关联 关系 。 随 着 大 数据 时 代 的 到 来 ,充分 大 
的 数据 量 和 更 为 有 效 的 数据 分 析 技术 使 得 人 们 能 够 发 现 隐 含 于 大 数据 中 更 为 复杂 的 * 非 线 
性 关联 关系 ”。 例 如 ,通过 大 数据 分 析 , 社 会 上 的 收入 水 平和 幸福 感 实际 上 会 呈现 出 一 种 非 
线性 关系 ,而 这 在 小 数据 时 代 一 直 被 认为 是 线性 正比 关系 。 由 线性 进入 到 非 线 性 是 人 们 分 
析 思 维 进 入 到 新 的 更 高 层级 的 标志 。 如 此 得 到 这 样 的 非 线性 关联 关系 对 于 决策 者 拟定 如 何 
提升 全 民 幸 福 感 方案 非常 重要 。 在 大 数据 环境 中 ,新 的 分 析 工 具 和 思路 为 人 们 提供 了 一 系 
列 新 的 视野 和 有 用 的 预测 ,使 得 人 们 看 到 了 很 多 以 前 不 曾 注意 到 的 实体 之 间 更 为 精细 和 深 
入 的 内 在 关系 ,通过 探求 “是 什么 ”而 不 在 执着 寻找 “为 什么 ”, 正 是 人 们 分 析 思 维 模式 的 一 次 
有 意义 的 扩展 ,有 助 于 掌握 以 前 无 法 理解 的 事物 变化 发 展 动态 。 


9.1.4 大 数据 理念 认 知 


由 上 述 讨论 可 知 ,作为 数据 集合 ,大 数据 来 源 于 网 络 空间 中 的 数据 界 , 具 有 PB 级 容量 、 
数据 产生 到 数据 消耗 时 间 窗 口 严格 限定 等 数据 自身 特征 ; 作为 数据 管理 技术 ,具有 由 其 数 
据 特 点 确定 的 4V 技术 特征 ; 大 数据 应 用 驱动 可 以 由 其 产生 来 源 予以 说 明 , 因 此 ,从 领域 应 
用 角度 来 看 ,大 数据 应 用 就 是 决策 应 用 ,决策 建立 在 数据 分 析 基 础 之 上 ,从 而 就 具有 由 样本 
分 析 到 总 体 分 析 、 由 精确 分 析 到 容错 分 析 和 由 因果 分 析 到 关联 分 析 的 大 数据 应 用 特征 。 

大 数据 概念 可 以 是 一 个 爹 形 概念 ,但 不 是 可 以 任意 滥用 的 定义 ,否则 就 会 出 现 “ 新 瓶装 
旧 酒 ”的 影响 ,似乎 大 数据 只 不 过 是 现 有 数据 管理 技术 的 另 一 种 包装 或 整合 。 

上 述 讨论 实 际 上 说 明 ,大 数据 概念 应 该 具有 自身 严格 的 逻辑 内 涵 和 明确 的 外 延 界定 ,只 
不 过 由 于 涉及 因素 众多 ,呈现 出 较为 复杂 的 情形 。 

1. 大 数据 概念 

针对 时 常 出 现 的 对 大 数据 概念 的 混用 和 滥用 情形 ,人 们 在 基于 前 述 讨 论 基 础 上 ,对 大 数 
据 进 行 逻辑 层面 上 定 级 分 解 描 述 。 

大 数据 所 涉及 的 主要 有 下 述 三 类 人 群 。 

(1) 大 数据 拥有 者 : 他 们 主要 关注 大 数据 的 自身 特质 和 描述 。 在 其 观念 中 ,大 数据 就 
是 一 种 具有 前 述 讨 论 自身 特征 的 特定 的 数据 集合 。 

(2) 大 数据 研究 者 : 主要 是 数据 科学 领域 中 的 学 者 和 研发 人 员 ,他们 主要 关注 于 大 数 
据 的 科学 属性 和 管理 技术 ,在 其 理念 中 ,大 数据 是 具有 4V 特征 的 一 种 计算 机 理论 与 技术 。 

(3) 大 数据 使 用 者 : 主要 是 计算 机 领域 外 的 各 类 人 员 , 他们 主要 关注 于 大 数据 的 应 用 
也 就 是 决策 支持 ,在 其 理念 中 ,大 数据 就 是 用 以 支持 决策 活动 ,是 一 种 新 的 和 有 效 的 决策 
方法 。 

之 所 以 对 于 大 数据 概念 会 缺少 明确 的 概念 辨识 与 理解 认 知 ,可 能 就 是 没有 仔细 分 清 上 


述 3 个 层面 上 的 人 们 对 大 数据 理念 认 知 上 的 差异 。 

从 逻辑 上 考虑 ,在 厘清 理念 层级 认 知 基础 上 ,人 们 或 许 将 大 数据 概念 表述 为 “向 决策 支 
持 提供 服务 的 大 数据 集合 .大 数据 技术 和 大 数据 应 用 总 称 ” 更 为 合适 ,实际 上 是 将 大 数据 概 
念 置 于 比 “ 大 数据 集合 “大 数据 技术 ”和 “大 数据 应 用 ”理念 层次 更 高 的 逻辑 层面 ,有 利于 分 
清 级 别 , 理 顺 脉络 ,也 有 助 于 人 们 对 于 大 数据 概念 的 深入 探讨 (具体 可 见 本 章 后 面 所 列 的 参 
考 文献 ) 。 

2. 大 数据 意义 

在 大 数据 时 代 , 将 会 有 更 多 种 类 的 预测 、 更 为 准确 的 预 判 .更 加 缺少 的 隐私 ,而 这 就 在 可 
能 标志 着 人 们 对 社会 交互 ,经 济 活动 和 日 常生 活 等 方面 的 全 新 认 知 。 实 际 上 ,大 数据 也 许 会 
让 人 类 对 客观 事物 的 认识 回归 本 源 ,同时 ,大 数据 通过 影响 经 济 生活 、 政 治 博 穿 .社会 管理 、 
文化 教育 ,科研 .医疗 保健 和 休闲 娱乐 等 行业 ,与 每 个 人 都 会 产生 密切 关联 。 人 们 需要 正视 
这 股 浪潮 ,积极 顺应 这 股 浪潮 ,了 解 和 认识 大 数据 带 来 的 深远 而 广泛 的 意义 。 

1) 数据 成 为 资源 和 财富 

网 络 时 代 ,信息 为 本 。 庞 大 的 数据 存储 具有 常规 数据 所 难以 比拟 的 潜在 价值 ,而 大 数据 
的 核心 就 是 挖掘 出 这 种 独 有 价值 。 只 要 能 够 提取 出 其 中 隐藏 的 关联 信息 ,看 似 纷乱 庞杂 的 
各 型 数据 就 会 变 为 有 用 珍宝 。 

(1) 数据 是 基础 性 资源 : 数据 已 成 为 可 与 土地 资金 ,物质 资产 和 人 力 资 本 相提并论 的 
重要 基础 性 资源 ,用 以 提高 企业 和 公共 部 门 的 生产 率 和 竞争 力 ,并 大 幅度 提高 消费 者 福利 。 
2011 年 麦肯锡 研究 院 数据 显示 ,制造 业 生产 商 利用 大 数据 可 以 使 产品 研发 .组 装 成 本 减少 
50% ,运营 成 本 减少 7%; 掌握 全 球 个 人 位 置信 息 ,每 年 可 获得 6000 亿美 元 的 消费 价值 。 

(2) 数据 是 战略 性 资源 : 人 类 文明 经 历 农业 经 济 和 工业 经 济 之 后 ,将 进入 互联 网 经 济 
这 种 新 的 社会 经 济 发 展 形态 ,此 时 ,数据 将 成 为 企业 、 社 会 和 国家 层面 重要 的 战略 资源 。 欧 
美 等 发 达 国 家 把 数据 资产 上 升 到 国家 信息 战略 高 度 , 欧 洲 发 达 国 家 政府 行政 管理 利用 大 数 
据 , 节 省 至 少 1000 亿 欧 元 的 成 本 ; 美国 医疗 行业 每 年 通过 大 数据 获得 的 潜在 价值 可 超过 
3000 亿美 元 ,能 够 使 得 美国 医疗 卫生 支出 降低 超过 8% 。 

(3) 数据 是 重要 生产 力 : 随 着 信息 网 络 技 术 在 国民 经 济 各 领域 的 不 断 渗透 和 扩散 ， 
各 产业 部 门 界限 被 打破 ,人 们 预测 未 来 最 大 的 能 源 可 能 就 是 大 数据 的 数据 收集 、 拥 有 和 
汇总 能 力 。 掌 握 数据 挖掘 、 分 析 和 利用 的 技术 ,就 是 掌握 了 互联 网 经 济 时 代 重 要 的 先进 
生产 力 。 

2) 新 技术 革命 的 助力 推动 

大 数据 带 来 的 不 仅 是 思维 的 变革 ,还 有 新 技术 与 制度 的 变革 。 

基于 社会 化 网 络 的 平台 和 应 用 使 得 数 以 百 亿 计 的 机 器 .企业 和 个 人 随时 随地 获取 和 产 
生 新 的 数据 ,由 此 正在 引发 全 球 范围 内 深刻 的 技术 变革 。 既 有 的 技术 架构 和 路 线 , 已 经 无 法 
高 效 处 理 如 此 巨 量 的 数据 。 

(1) 大 数据 具有 数据 量 大 、 数 据 类 型 多 的 特征 ,这 使 得 常规 数据 库 设 计 面 临 挑战 。 常 规 
的 数据 库 引擎 要 求 数据 按 事 先 设计 好 的 形式 高 度 准确 排列 ,数据 被 整齐 地 划分 为 包含 " 域 ” 
的 记录 ,每 个 域 都 规定 了 特定 种 类 和 特定 长 度 。 关 系数 据 库 主要 是 基于 “数据 稀缺 ”而 设计 
开发 的 ,因而 能 够 也 必须 做 到 仔细 规划 ,使 得 存储 数据 显现 规律 ,便于 统计 分 析 。 现 在 ,人 们 
面临 的 是 各 种 各 样 和 参差 不 齐 的 巨 量 数据 ,无 法 预先 设 定数 据 种 类 和 存储 长 度 , 常 规 数据 存 
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储 和 分 析 方 法 与 之 出 现 了 明显 冲突 。 这 是 对 现 有 数据 库 技术 的 尖锐 挑战 ,但 也 必 将 推动 新 
的 数据 库 原理 技术 的 产生 发 展 。 

(2) 面 对 大 数据 越 来 越 实时 的 要 求 , 不 仅 是 数据 流动 快 ,还 是 对 大 数据 分 析 、 处 理 速度 
的 要 求 , 云 计算 也 就 成 为 大 数据 管理 系统 技术 实现 过 程 中 不 可 忽视 的 重要 组 成 部 分 。 

(3) 大 数据 可 以 全 方位 吉 括 人 -人 互联 ,人 - 物 互 联 和 物 - 物 互 联 过 程 中 的 所 有 数据 ,其 中 
人 - 物 互 联 和 物 - 物 互联 产生 的 数据 量 在 理论 上 应 该 大 大 超过 人 -人 互联 过 程 的 数据 量 。 人 - 
物 和 物 - 物 互联 的 技术 过 程 就 是 人 们 常 说 的 “ 物 联网 ”。 物 联网 相当 于 整个 互联 网 的 感觉 和 
运动 神经 系统 ,通过 收集 人 类 日 常 网 络 活动 中 留 下 的 痕迹 获取 大 量 数据 。 物 联网 实际 上 也 
是 (广义 ) 大 数据 框架 下 的 重要 组 成 部 分 。 

(4) 随 着 互联 网 、 移 动 互 联网 快速 发 展 和 智能 信息 终端 设备 的 广泛 普及 ,每 个 人 几乎 
每 时 每 刻 都 在 产生 数据 。 由 于 在 公用 网 络 上 运行 ,所 产生 的 数据 从 本 质 上 来 说 将 不 再 神 
秘 和 具有 私有 特性 。 人 们 的 相关 数据 可 以 在 毫 无 知晓 的 状态 下 被 有 关机 构 和 企业 收集 、 
存储 和 使 用 。 当 数据 形成 资源 而 体现 巨大 价值 时 ,数据 外 泄 也 许 是 所 有 人 不 可 避免 的 困 
扰 , 而 大 家 所 面临 的 共同 问题 是 如 何 保护 自己 的 隐私 权 。 信 息 安全 问题 早已 有 之 ,大 数 
据 只 是 将 这 一 问题 以 更 加 鲜明 的 色彩 和 更 为 迫切 的 驱动 展现 在 人 们 面前 ,也 就 是 到 了 常 
说 的 “ 非 解决 不 可 ”的 地 步 。 可 以 相信 ,由 于 大 数据 已 经 融入 社会 生活 的 各 个 方面 ,解决 
人 们 长 久 关注 而 又 未 能 有 效 解 决 的 数据 信息 安全 问题 一 定 能 够 得 到 更 加 强 有 力 的 推进 
与 发 展 。 

3) 社会 发 展 的 机 遇 促 进 

大 数据 对 社会 发 展 产生 的 影响 并 不 限于 技术 层面 , 它 从 各 方面 促进 了 社会 的 发 展 。 

(1) 影响 经 济 活动 和 社会 生活 。 大 数据 解决 方案 消除 了 常规 情况 下 数据 计算 和 数据 存 
储 的 局 限 。 借 助 于 不 断 增长 的 私密 和 公开 数据 ,为 大 数据 客户 带 来 新 的 实质 性 的 收入 增长 
点 及 富 于 竞争 力 的 优势 ,一 些 新 的 商业 和 经 济 活 动 模式 正在 兴起 ,促进 了 社会 进步 发 展 , 人 
们 的 一 些 社会 生活 习惯 也 随 之 改变 。 

商业 模式 方面 : 大 数据 正在 重 构 很 多 常规 行业 。 通 过 收集 、 整 理 生活 中 方方面面 的 
数据 ,并 对 其 进行 分 析 挖 掘 ,进而 从 中 获得 有 价值 的 信息 ,最 终 衍化 出 新 的 商业 模式 。 大 数 
据 的 应 用 越 来 越 彰显 它 的 优势 , 它 占领 的 领域 也 越 来 越 大 ,如 电子 商务 .O20 物流 配送 等 ， 
各 种 利用 大 数据 进行 发 展 的 领域 正在 协助 企业 不 断 地 发 展 新 业务 ,创新 运营 模式 。 

@ 企业 管理 方面 : 大 数据 彻底 改变 了 企业 内 部 运作 模式 。 以 往 管理 是 “经 理 如 何 讲 ”， 
现在 正 逐 步 变 成 “大 数据 怎么 说 ”, 这 就 是 对 常规 领导 力 的 挑战 ,也 是 对 企业 管理 岗位 人 才 新 
的 界定 , 即 不 仅 需要 懂得 企业 业务 流程 ,还 要 成 为 数据 专家 。 跨 专业 的 要 求 改变 过 去 领导 力 
主要 体现 在 经 验 积累 和 过 往 业 绩 , 更 需要 熟练 掌握 大 数据 分 析 工 具 , 善 于 运用 大 数据 分 析 结 
果 进 行 企业 的 销售 和 运营 管理 。 

@ 医疗 卫生 方面 : 突出 表现 在 大 数据 提供 了 个 性 化 的 医疗 服务 。 在 大 数据 帮助 下 , 医 
生 在 诊疗 时 通过 对 一 个 患者 的 累计 历史 数据 进行 梳理 ,综合 各 种 案例 分 析 , 并 结合 遗传 变 
异 、 对 特定 疾病 易 感 性 和 对 特殊 药物 反应 性 等 关系 ,实现 个 性 化 的 医疗 。 还 可 以 在 患者 发 生 
疾病 症状 前 ,提供 早期 的 检测 和 诊断 。 

@ 社会 安全 管理 方面 : 实时 掌握 动态 的 流动 人 口 来 源 和 出 行 ,实时 交通 客流 信息 及 
拥堵 情况 。 利 用 短信 、 微 博 、 微 信和 搜索 引擎 等 ,收集 热点 事件 ,挖掘 与 情 和 追踪 衣 言 信 


息 源头 。 

加 劳动 就 业 方面 : 据 盖 特 纳 咨 询 公 司 预 测 , 大 数据 将 为 全 球 带 来 440 万 个 IT 新 岗位 
和 上 千 万 个 非 IT 岗位 。 麦 表 锡 公司 预测 美国 到 2018 年 需要 深度 数据 分 析 人 才 为 44 万 一 
49 万 人 ,缺口 为 14 万 一 19 万 人 ; 需要 既 熟 悉 本 单位 需求 又 了 解 大 数据 技术 与 应 用 的 管理 
者 150 万 ,这 方面 的 人 才 缺 口 更 大 。 中 国人 口 世界 第 一 ,不 仅 拥有 巨大 海量 的 大 数据 ,而 且 
是 人 才 大 国 , 但 能 理解 与 应 用 大 数据 的 创新 人 才 现 在 还 是 稀缺 资源 。 

(2) 科学 研究 突破 。 随 着 大 数据 的 快速 发 展 , 就 像 计算 机 和 互联 网 一 样 ,大 数据 很 有 可 
能 引发 新 一 轮 的 技术 革命 。 随 之 兴起 的 数据 挖掘 ,机 器 学 习 和 人 工 智能 等 相关 技术 ,可 能 会 
改变 数据 世界 中 现 有 的 很 多 算法 和 基础 理论 ,形成 一 门 “数据 科学 "的 新 兴 数 据 管理 技术 领 
域 。 近 年 来 ,美国 哥伦比亚 大 学 、 纽 约 大 学 、 加 州 大 学 、 卡 耐 基 - 梅 隆 大 学 等 许多 高 校 建立 数 
据 科 学 研究 机 构 或 开设 数据 科学 专业 研究 生 培养 项 目 。 以 大 数据 研究 为 基本 特征 的 数据 科 
学 也 会 对 其 他 前 沿 学 科 产 生 深 远 的 影响 。 例 如 ,欧洲 核子 研究 组 织 通 过 对 大 约 200PB 的 数 
据 用 150 个 计算 中 心 进行 长 达 3 年 的 大 数据 分 析 计 算 , 在 2013 年 3 月 14 日 宣布 了 希 格 斯 
玻 色 子 的 确认 ,这 是 前 沿 科 学 领域 中 一 项 具有 重大 影响 的 成 果 。 

作为 一 种 计算 机 技术 ,大 数据 不 仅 对 于 相关 领域 的 技术 创新 产生 巨大 驱动 ,同时 还 由 于 
其 特有 的 品质 和 功效 ,对 于 人 们 的 社会 生活 及 文化 活动 都 产生 了 重要 而 深远 的 影响 ,这 正 是 
大 数据 技术 的 意义 所 在 。 


9.2 大 数据 基本 技术 


如 前 所 述 , 大 数据 的 主要 内 涵 是 从 体 量 庞 大 、 类 型 众多 的 数据 集合 中 获取 有 用 的 决策 信 
息 ,因此 大 数据 基本 技术 就 是 实现 大 数据 价值 的 关键 ,而 这 就 需要 灵活 运用 多 学 科 的 原理 与 
方法 。 目 前 ,来 自 于 统计 学 、 计 算 机 科学 、 应 用 数学 和 经 济 学 等 领域 的 技术 已 经 应 用 于 大 数 
据 整 合 、 处 理 、 分 析 和 可 视 化 ; 同时 ,已 有 的 一 些 面 向 规模 较 小 、 种 类 较 少 的 数据 开发 技术 也 
被 重新 成 功 地 应 用 于 更 多 元 的 大 规模 数据 集 。 从 技术 上 看 , 物 联 网 、 移 动 互联 网 和 常规 互联 
网 ,每 天 都 源源 不 断 地 产生 海量 数据 ,大 部 分 是 半 结 构 化 数据 和 非 结 构 化 数据 。 这 些 数 据 存 
储 到 关系 型 数据 库 用 于 分 析 将 会 代价 过 大 ,如 Google 在 使 用 传统 手段 处 理 网 页 文件 的 倒 排 
索引 时 就 曾经 花费 了 数 月 时 间 , 这 种 情形 催生 了 各 类 相关 的 新 型 数据 库 技术 产生 与 发 展 。 
同时 ,大 数据 需要 对 数据 进行 分 析 、 提 取信 息 ,无 法 仅 使 用 单 台 计算 机 进行 存储 和 处 理 , 必 须 
采用 一 种 新 型 的 分 布 式 架构 ,所 以 大 数据 技术 也 和 云 计算 紧密 相连 。 大 数据 处 理 技术 基本 
流程 如 图 9-2 所 示 。 
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本 节 将 简要 介绍 大 数据 框架 下 的 数据 采集 与 预 处 理 、 数 据 分 析 与 数据 挖掘 即 呈 现 等 通 
用 技术 、 大 数据 与 物 联网 及 云 计算 关系 等 相关 知识 。 


9.2.1 数据 采集 


数据 采集 是 大 数据 挖掘 和 分 析 的 重要 基础 ,有 效 的 数据 采集 对 大 数据 挖掘 研究 具有 十 
分 重要 的 意义 。 

大 数据 采集 可 以 具有 多 种 多 样 的 渠道 。 在 智能 交通 中 ,有 基于 GPS 定位 信息 采集 、 基 
于 交通 摄像 头 的 视频 采集 和 基于 交通 卡 口 的 图 像 采 集 等 ; 在 互联 网 上 ,主要 是 针对 网 络 媒 
介 ( 如 搜索 引擎 .新闻 网 站 论坛, 微 博 、 博 客 、 电 商 网 站 等 ) 的 各 种 页 面 信 息 和 用 户 访问 信息 
的 数据 采集 ,采集 内 容 包 括 文本 信息 .URL ,访问 日 志 、 日 期 和 图 片 等 ; 在 卫生 保健 领域 , 数 
据 采集 渠道 除了 常规 信息 系统 平台 外 ,还 可 通过 移动 APP、 智 能 终端 \ 大 型 医疗 设备 ,健康 
监测 设备 .基于 测序 仪 和 可 穿戴 设备 等 多 种 方式 进行 采集 。 

针对 不 同 的 数据 采集 渠道 ,需要 采用 不 同 的 数据 采集 方法 ,主要 有 下 述 技术 方式 。 

(1) 互联 网 企业 数据 采集 : 自身 大 数据 采集 多 采用 系统 日 志方 式 , 如 Hadoop 的 
Chukwa,Cloudera 的 Flume,Facebook 的 Scribe 等 。 这 些 方式 采用 分 布 式 架构 ,能 满足 每 
秒 数 百 MB 的 日 志 数 据 采集 和 传输 需求 。 

(2) 一 般 网 络 数 据 采集 : 通常 通过 网 络 爬 虫 或 网 站 公开 API 等 方式 从 网 站 上 采集 获取 
数据 信息 ,将 非 结 构 化 数据 从 网 页 中 抽取 出 来 统一 存储 为 本 地 数据 文件 ,存储 方式 多 采用 结 
构 化 类 型 。 此 种 方式 支持 图 片 音频、 视频 等 文件 或 附件 的 采集 ,附件 与 正文 可 以 自动 关联 。 

(3) 网 络 数据 流量 采集 : 通常 除 需 要 采集 网 络 包含 数据 外 ,还 可 能 需要 采集 网 络 数据 
流量 ,可 以 使 用 DPI 或 DFI 等 带宽 管理 技术 进行 处 理 。 

(4) 保密 性 数据 采集 : 对 于 企业 生产 经 营 数据 或 学 科研 究 数据 等 保密 性 要 求 较 高 的 数 
据 , 通 常 通过 与 企业 或 研究 机 构 合作 ,使 用 特定 系统 接口 等 相关 方式 采集 数据 。 


9.2.2 数据 预 处 理 


现实 世界 中 的 数据 大 多 不 够 完整 或 不 尽 一 致 ,无 法 直接 进行 数据 分 析 或 分 析 挖 掘 结 果 
不 甚 理想 。 数 据 预 处 理 就 是 对 采集 到 的 数据 进行 填补 ,平滑 、 合 并、 规格 化 和 检查 一 致 性 等 
处 理 , 并 对 数据 的 多 种 属性 进行 初步 组 织 ,提高 数据 分 析 质 量 ,减少 分 析 挖掘 时 间 ,这 对 于 体 
量 巨大 的 大 数据 来 说 尤为 重要 。 如 果 不 对 数据 进行 事先 预 处 理 而 只 是 单纯 依赖 服务 器 的 计 
算 能 力 ,通常 难以 满足 大 数据 对 处 理 速度 和 处 理 精 确 性 等 要 求 。 

与 常规 数据 预 处 理 流程 相似 ,大 数据 预 处 理 通常 是 指 ETL', 基 本 步骤 也 是 将 多 个 数据 
源 中 的 数据 抽取 到 临时 中 间 层 后 进行 清洗 ,转换 和 集成 .最 后 加 载 到 目标 数据 库 或 相应 文件 
存储 系统 中 作为 数据 分 析 的 基础 。 

(1) 数据 抽取 。 负 责 将 各 个 数据 源 中 的 数据 提取 出 来 ,其 中 包括 全 量 抽取 和 增 量 抽 取 。 
全 量 抽取 是 指 将 数据 源 中 的 数据 从 数据 库 中 原样 抽取 出 来 , 增 量 抽取 是 指 只 抽取 截止 到 上 
次 抽取 时 间 结 点 后 数据 库 中 新 增 或 修改 的 数据 。 目 前 增 量 抽取 应 用 更 为 广泛 。 对 于 获取 增 
量 ,首先 要 求 是 准确 性 ,能 够 将 业务 系统 保护 的 数据 按照 一 定 频率 准确 地 捕获 : 其 次 要 求 是 
良好 性 能 ,捕获 变化 数据 的 过 程 ,不 能 对 业务 系统 造成 太 大 的 压力 ,不 能 影响 业务 系统 的 正 


常 运行 。 


(2) 数据 转换 。 从 数据 源 抽 取 的 数据 不 一 定 完全 满足 目标 数据 库 的 需求 ,如 数据 格式 
不 一 致 .数据 输入 错误 和 数据 不 完整 等 ,因此 需要 对 抽取 的 数据 进行 转换 。 数 据 转 换 一 般 包 
括 数 据 过 滤 .数据 蔡 换 、 字 段 映 射 ,数据 清洗 、 数 据 计 算 、 数 据 验证 ,数据 加 解密 、 数 据 合 并 和 
数据 拆 分 等 步骤 。 数 据 预 处 理 中 ,花费 时 间 最 长 的 就 是 数据 的 转换 部 分 ,一 般 情况 下 这 部 分 
的 工作 量 要 占 整个 数据 预 处 理 的 2/3。 

(3) 数据 加 载 。 将 转换 和 汇总 的 数据 加 载 到 目标 数据 库 或 相应 文件 存储 系统 中 ,并 可 
实现 批量 加 载 。 数 据 加 载 所 采用 的 技术 方法 由 数据 操作 类 型 和 数据 体 量 来 决定 ,一 般 可 以 
通过 SQL 语句 的 方式 ,也 可 以 采用 批量 装载 的 方式 。 转 载 步骤 中 的 关键 组 件 是 代理 键 管 
道 , 代 理 键 管道 主要 用 于 将 加 载 完成 的 数据 表 中 的 自然 键 蔡 换 为 代理 键 , 在 代理 键 管道 内 ， 
维度 表 的 主键 与 外 键 仍然 得 到 保留 ; 但 是 为 了 提升 系统 性 能 ,在 完成 加 载 以 后 ,一 些 约束 条 
件 将 被 去 除 而 仅 保留 自然 键 进行 。 

大 数据 预 处 理 方式 具有 以 下 基本 特点 。 

QO@ 多 维 数据 处 理 : 由 于 大 数据 中 存在 文本 、 图 像 和 视频 等 多 种 非 结 构 化 数据 ,这 些 非 
结构 化 数据 可 以 从 不 同 角度 描述 ,常规 数据 描述 方法 不 能 满足 大 数据 的 多 样 性 需求 。 在 预 
处 理 过 程 中 ,需要 寻找 这 些 数据 的 不 同属 性 ,从 多 个 维度 对 数据 进行 描述 ,提升 数据 可 解释 
性 ,灵活 应 对 分 析 需 求 的 变化 。 

@ 大 规模 并 行 处 理 框架 应 用 : 使 用 MapReduce 等 并 行 处 理 方式 来 进行 数据 平滑 和 聚 
类 等 预 处 理工 作 。 

G) 分 布 式 存储 系统 及 数据 流 式 处 理 : 大 数据 导入 的 数据 量 巨大 ,可 达到 每 秒 GB 级 的 
量 级 ,需要 在 预 处 理 之 后 ,将 其 导入 到 分 布 式 存储 系统 中 。 对 支持 实时 流 处 理 的 数据 , 则 可 
先进 行 实时 流 式 的 内 存 简单 预 处 理 , 在 把 流 式 处 理 结果 存储 到 分 布 式 系统 以 供 后 续 分 析 
使 用 。 


9.2.3 数据 存储 


随 着 大 数据 时 代 的 到 来 ,需要 存储 的 数据 越 来 越 多 .数据 也 呈现 越 来 越 复杂 的 结构 。 如 
何 对 海量 数据 进行 组 织 与 存储 就 成 为 了 一 个 基本 点 。 具 体 要 求 就 是 对 数据 流 在 加 工 过 程 中 
产生 的 临时 文件 或 加 工 过 程 中 需要 查找 的 信息 进行 有 效 组 织 , 并 以 某 种 格式 记录 在 计算 机 
内 部 或 外 部 存储 介质 上 。 

1. HDFS 分 布 式 文件 系统 

作为 分 布 式 计 算 的 存储 基础 ,HDFS 是 Hadoop 框架 的 分 布 式 文件 系统 , 它 负 责 数 据 的 
分 布 式 存储 及 数据 的 管理 ,并 能 提供 高 吞吐 量 的 数据 访问 。 

HDFS 体系 框架 是 经 典 的 Master/Slave 结构 ,一 个 典型 的 HDFS 通常 由 单个 
NameNode 和 多 个 DataNode 组 成 。NameNode ee 个 中 心服 务 器 ,负责 文件 系统 的 命名 
空间 的 操作 。DataNode 一 般 是 一 个 结 点 部 署 一 个 ,负责 管理 它 所 在 结 点 上 的 存储 。 从 内 部 
来 看 ,一 个 文件 其 实 被 分 为 一 个 或 多 个 数据 块 ， es- 组 DataNode 上 ,负责 处 理 
文件 系统 客户 端的 读 / 写 请 求 ,在 统一 调度 下 进行 数据 块 的 创建 .删除 和 复制 ,如 图 9-3 所 示 。 

HDFS 针对 数据 读 / 写 的 应 用 场景 ,具有 “一 次 写 、 多 次 读 ” 的 特征 ; 数据 写 操作 主要 是 
顺序 写 , 即 在 文件 创建 时 的 写 和 或 现 有 文件 之 后 的 添加 操作 。HDFS 保证 一 个 文件 在 一 个 
时 刻 只 被 一 个 调用 者 执行 写 操作 ,但 可 被 多 个 调用 者 执行 读 操作 ,如 图 9-4 和 图 9-5 所 示 。 
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图 9-3 HDFS 文 件 的 存储 结构 
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9-5 ”HDFS 读 操 作 


HDFS 采用 * 块 ”作为 其 管理 的 文件 存储 单元 。 块 通常 为 64MB 或 128MB。 一 个 块 数 
据 位 于 一 个 结 点 上 ,而 一 个 大 型 文件 可 能 存储 在 多 个 块 的 单元 中 ,一 个 文件 所 在 块 可 以 位 于 
不 同 的 结 点 。 

HDFS 中 的 命名 结 点 以 维护 文件 系统 的 逻辑 结构 ,文件 的 元 信息 包括 文件 数据 实际 存 
储 位 置信 息 , 它 是 文件 系统 可 访问 的 关键 。 命 名 结 点 将 文件 系统 的 信息 存储 在 内 存 中 以 供 
快速 访问 和 操作 ,同时 将 数据 持久 化 存储 到 本 地 文件 系统 和 远程 文件 系统 中 以 备 故障 恢复 。 

HDFS 基本 特点 如 下 。 

(1) 高 容错 性 : 数据 自动 保存 多 个 副本 ,副本 丢失 后 能 够 自动 恢复 。 

(2) 适合 批 处 理 : 移动 计算 而 非 数据 ,数据 位 置 暴露 给 计算 框架 。 

(3) 适合 大 数据 处 理 : GB、TB 或 PB 级 数据 , 百 万 规模 以 上 的 文件 数量 ,10K 十 结 点 
规模 。 

(4) 流 式 文件 访问 : 一 次 性 写 信 ,多 次 读 取 ,保证 数据 一 致 性 。 

(5) 可 构建 在 廉价 机 器 上 : 通过 多 副本 提高 可 靠 性 ,提供 了 容错 和 恢复 机 制 。 

2. NoSQL 非 关系 型 分 布 式 数据 库 

使 用 计算 机 进行 数据 管理 就 是 应 用 数据 库 平 台 存 储 和 处 理 数据 ,将 大 数据 作为 “数据 ” 
进行 管理 ,就 需要 建立 相应 的 数据 库 平 台 , 基 于 大 数据 环境 的 新 型 数据 库 技 术 也 就 成 为 大 数 
据 相关 技术 中 的 重要 基础 之 一 。 大 数据 是 一 种 包含 结构 化 、 半 结构 化 及 非 结 构 化 的 “混成 ” 
数据 ,不 能 只 是 对 RDB 进行 “设备 ”层面 上 “ 量 ” 的 扩充 ,而 需要 进行 数据 结构 体系 层面 的 拓 
展 与 补充 。 

大 数据 思维 从 精确 思维 转向 容错 思维 , 即 允 许 * 不 精确 ?数据 的 存在 。RDB 引擎 要 求 数 
据 高 度 精 确 且 准确 排列 ,数据 库 中 数据 文件 都 具有 二 维 关系 表 的 固定 结构 格式 ,每 个 元 组 字 
段 的 结构 组 成 需要 一 致 ,即使 不 是 其 中 元 组 需要 的 字段 ,数据 库 也 会 为 其 相应 字段 分 配 数 据 
值 , 如 分 配 空 值 。 这 种 结构 虽然 便于 进行 关系 表 之 间 的 连接 等 数据 操作 ,但 对 于 大 数据 中 常 
见 的 关联 查询 却 效率 低下 ,也 难以 满足 大 数据 的 可 扩展 需求 。 

大 数据 拥有 各 种 各 样 .参差 不 齐 的 巨 量 数据 ,而 且 大 数据 所 要 解决 的 问题 可 能 只 有 在 数 
据 收 集 和 处 理 过 程 中 才 会 被 发 现 与 提出 ,关系 数据 存储 和 分 析 的 方法 也 无 法 适应 大 数据 对 
数据 库 的 高 并 发 读 / 写 ,海量 数据 存储 和 复杂 的 关联 分 析 和 挖掘 需求 。 
正 是 上 述 应 用 需求 催生 和 驱动 了 面向 大 数据 的 新 型 数据 库 技 术 的 研发 ,这 些 技术 扩展 
了 常规 RDB 数据 规范 性 和 结构 规范 性 ,形成 了 近年 来 出 现 的 各 类 非 关 系 型 数据 库 系 统 。 由 
于 这 些 数据 能 够 处 理 超大 量 半 结 构 和 非 结构 化 数据 ,弱化 了 数据 库 的 关系 型 特性 ,简化 了 数 
据 库 中 的 数据 组 织 ,便于 对 数据 和 系统 架构 进行 扩展 ,是 一 种 * 非 SQL” 数 据 库 系 统 ,因此 通 
常 称 为 NoSQL 数据 库 ,其 特点 在 于 可 以 自 定义 数据 存储 格式 。 大 数据 通常 采用 分 布 式 存 
储 , 非 关系 型 分 布 式 数据 库 (NoSQL) 是 分 布 式 存储 的 主要 技术 。 

NoSQL 概念 最 初 见于 2009 年 ,常见 语义 解释 可 以 是 Non-Relational。 由 于 在 通常 情 
况 下 ,实际 上 人 们 已 将 关系 数据 查询 语言 SQL 作为 关系 型 数据 库 代名词 , Non-Relational 
也 就 相当 于 NoSQL, 进 而 NoSQL 也 被 解释 称 为 了 Not Only SQL, 泛 指 各 类 新 出 现 的 非 关 
系 型 数据 库 。 

NoSQL 数据 存储 不 需要 固定 的 表 结构 ,因此 通常 没有 数据 的 连接 操作 ,各 个 数据 可 以 
独立 设计 ,数据 结构 也 不 是 固定 的 ,这 就 易于 将 数据 分 散 到 多 个 服务 器 中 ,减少 了 单个 服务 
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器 的 数据 量 ,能 够 以 更 好 的 相对 于 关系 数据 库 的 性 能 优势 处 理 超大 量 的 数据 。 

相 比 起 常规 关系 型 数据 库 ,NoSQL 具有 以 下 几 方 面 的 基本 特征 。 

(1) 易 扩 展 性 。NoSQL 数据 库 共同 特点 是 去 掉 RDB 的 关系 表 结 构 特性 ,数据 之 间 可 
以 没有 结构 一 致 性 方面 的 关联 ,容易 扩展 ,由 此 也 导致 了 架构 层面 上 可 扩展 能 力 的 增强 。 

(2) 大 数据 量 高 性 能 。 由 于 数据 之 间 的 无 关联 性 ,数据 库 结 构 相 对 简单 ,在 大 数据 量 环 
境 中 具有 更 高 的 读 / 写 性 能 。 

(3) 灵活 的 数据 格式 。 无 须 事 先 设 计 和 建立 数据 字段 ,随时 可 以 存储 自 定义 的 数据 格 
式 , 使 得 数据 库 的 维护 更 加 方便 灵活 。 

(4) 高 可 用 性 。 在 对 性 能 影响 不 大 的 情况 下 就 可 以 方便 地 实现 高 可 用 的 架构 。 

目前 主要 有 4 种 非 关 系 型 数据 库 管 理 系 统 , 即 基于 Key-Value 键 值 存储 、 基 于 列 存储 、 
基于 文档 的 数据 库 和 图 形 数据 库 。 

1) 键 值 (Key-Value) 存 储 数据 库 

Key-Value 数据 库 以 键 - 值 的 形式 存储 数据 。 根 据 数据 的 保存 方式 可 以 分 为 临时 性 、 永 
久 性 和 两 者 兼 具 3 种 。 

(1) 临时 性 键 - 值 数据 库 : 将 所 有 数据 存储 在 内 存 中 ,保存 和 读 取 的 速度 更 快 ,但 当 数 据 
库 停 止 工作 时 ,数据 就 不 复 存在 ,或 者 当 数 据 超出 内 存 容量 时 , 旧 数 据 也 会 丢失 ,临时 性 也 就 
包含 有 “数据 有 可 能 丢失 ”的 意思 。 例 如 ,Memcached 数据 库 就 是 临时 性 的 。 

(2) 永久 性 键 - 值 数据 库 : 将 数据 保存 在 硬盘 中 ,数据 不 会 丢失 ,此 即 “ 永 久 性 ”的 含义 。 
由 于 对 硬盘 的 I/O 操作 ,与 临时 性 数据 库 相 比 具 有 性 能 上 的 差距 ,但 其 最 大 的 优点 是 不 会 
丢失 数据 。 例 如 ,Tokyo Cabinet、Flare 等 都 属于 该 种 类 型 。 

(3) 临时 .永久 兼 具 键 值 数 据 库 : 综合 两 者 优点 ,如 Redis, 是 一 个 高 性 能 的 Key-Value 
数据 库 ,首先 把 数据 保存 在 内 存 中 ,在 满足 一 定 条 件 ( 如 过 多 久 或 多 少数 据 被 保存 之 类 ) 后 ， 
通过 异步 操作 将 数据 写 和 人 硬盘。 这 样 既 兼顾 了 性 能 ,又 保证 了 永久 性 。 

这 一 类 数据 库 主要 会 使 用 一 个 哈 希 表 , 表 中 有 一 个 特定 的 键 和 一 个 指针 指向 特定 的 数 
据 。 键 - 值 模型 对 于 IT 系统 来 说 的 优势 在 于 简单 . 易 部 署 及 能 够 提高 读 / 写 性 能 需求 。 

2) 列 存储 数据 库 

列 存储 数据 库 改变 了 常规 数据 库 以 行为 单位 存储 数据 的 模式 ,而 以 列 为 单位 存储 数据 ,这 
样 做 的 好 处 是 可 对 大 量 行 的 少数 列 进行 读 取 ,也 可 对 所 有 行 的 特定 列 进行 同时 更 新 。 此 类 数 
据 库 通常 用 来 应 对 分 布 式 存储 的 海量 数据 。 例 如 ,Cassandra 和 HBase 属于 此 类 数据 库 。 

Cassandra 由 Facebook 于 2008 年 开源 发 布 ,随后 Facebook 自身 也 使 用 Cassandra 的 
另 一 个 不 开源 的 分 支 。 开 源 Cassandra 主要 由 Amazon 的 Dynamite 团队 维护 。 目 前 除 
Facebook 之 外 ,twitter 和 digg. com 都 在 使 用 Cassandra。 

列 存储 数据 库 将 数据 按 行 排序 , 按 列 存储 ,将 相同 字段 的 数据 作为 一 个 列 族 来 聚合 存 
储 。 不 同 的 列 族 对 应 数据 的 不 同属 性 ,这 些 属性 可 根据 需求 动态 增加 ,通过 这 样 的 分 布 式 实 
时 列 式 数据 库 对 数据 统一 进行 存储 和 管理 ,满足 高 可 扩展 性 的 需求 ,避免 了 常规 数据 存储 方 
式 下 的 连接 查询 。 当 只 需 查 询 少 数 几 个 列 族 的 数据 时 ,采用 列 存储 方案 进行 大 数据 存储 可 
大 大 减少 读 取 的 数据 量 , 减 少数 据 装载 和 1/O 的 时 间 , 提 高 数据 处 理 效 率 。 对 于 图 像 、 视 
频 、URL 和 地 理 位 置 等 类 型 多 样 的 数据 ,采用 这 种 面向 列 存储 的 数据 库 可 更 为 有 效 地 组 织 
管理 数据 。 


3) 文档 型 数据 库 

文档 型 数据 库 基本 特征 是 可 以 在 不 定义 表 结 构 环境 中 ,也 可 像 定 义 了 表 结 构 一 样 来 使 
用 相关 数据 ,从 不 需要 为 保持 数据 的 一 致 性 而 付出 系统 开销 ,同时 ,还 可 以 通过 复杂 的 查询 
条 件 获 取 数 据 。 文 档 型 数据 库 可 看 作 是 键 - 值 存储 数据 库 的 升级 版 ,但 比 键 值 数 据 库 具有 更 
高 的 查询 效率 ,能 够 满足 海量 存储 需求 和 访问 。 文 档 型 数据 库 主 要 解决 的 不 是 高 性 能 的 并 
发 读 / 写 问题 ,而 是 要 在 保证 海量 数据 存储 的 同时 使 得 系统 具有 良好 的 查询 性 能 。 例 如 ， 
CouchDB 和 MongoDB 等 属于 此 类 数据 库 。 

4) 图 形 (Graph) 数 据 库 

图 形 数据 库 使 用 灵活 的 图 形 模型 并 可 扩展 到 多 个 服务 器 上 。 图 形 数据 库 没 有 标准 的 查 
询 语言 ,因此 进行 数据 库 查 询 需 要 制定 数据 模型 。 许 多 图 形 数据 库 都 有 REST 式 的 数据 接 
口 或 查询 API。 例 如 ,Neo4J .InfoGrid 和 Infinite Graph 属于 此 类 数据 库 。 

上 述 各 种 类 型 的 NoSQL 数据 库 如 表 9-1 所 示 。 


表 9-1 NoSQL 数据 库 分 类 


分 类 | 举例 | 典型 应 用 场景 | 数据 模型 | 优 点 缺点 

内 容 缓 存 , 处理 |Key 指向 Valuc 

键 - 值 memcached 、 、 

(Key Value ) | Tokyo Cabinet、 | 大量 数 据 的 高 访 | 的 键 值 对 , 通 | 查找 速度 快 。 | 数据 无 结构 化 

存储 数据 库 Redis_Flare 问 负载 ,也 用 于 | 常用 hashtable 
一 些 日 志 系 统 等 | 来 实现 








查找 速度 快 ,高 
Cassandra、 分 布 式 的 文件 
列 存储 数据 库 HBase.Riak “| 系统 面向 列 存储 扩展 性 ,更 易 进 | 功能 相对 局 限 























行 分 布 式 扩展 
“| 数据 结构 要 求 | 查询 性 能 不 高 ,而 且 
文档 型 数据 库 | ve Web 应 用 ee 不 严格 ,可 满足 | 缺乏 统一 的 查询 
负责 查询 需求 “| 语法 
NeodJ、 社交 网 络 ,推荐 利用 图 结构 相 td 
图 形 数据 库 ”| InfoGrid、 系统 等 。 专 注 于 | 图 结构 关 算 法 ,如 最 短 信息 ,不 易 做 分 布 式 
Infinite Graph | 构建 关系 图 谱 路 径 寻 址 等 的 集群 方 案 


3. 虚拟 存储 技术 和 云 存储 技术 

为 实现 存储 的 低 成 本 、 高 可 扩展 性 和 资源 池 化 ,需要 用 到 虚拟 存储 技术 和 云 存 储 技术 。 

1) 虚拟 存储 技术 

虚拟 存储 技术 是 指 将 存储 系统 的 内 部 功能 从 应 用 程序 计算 服务 器 、 网 络 资源 中 进行 抽 
象 隐 茂 和 隔离 ,最 终 使 其 独立 于 应 用 程序 、 网 络 存 储 和 数据 管理 。 相 比 于 传统 的 存储 ,虚拟 
存储 技术 磁盘 利用 率 高 ,存储 灵活 ,管理 方便 ,并 且 性 能 更 好 。 

2) 云 存储 技术 

云 存 储 是 由 云 计算 概念 延伸 并 衍生 发 展 而 来 的 一 个 新 的 概念 。 云 存储 凭借 分 布 式 文件 
系统 、 集 群 应 用 、 网 络 技术 等 功能 ,通过 应 用 软件 将 网 络 中 大 量 不 同类 型 的 存储 设备 集合 起 
来 协同 作用 ,实现 对 外 共同 提供 数据 存储 及 业务 访问 功能 的 一 个 系统 。 这 样 , 既 保证 了 数据 
的 安全 性 ,也 节约 了 存储 空间 。 
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9.2.4 数据 处 理 


1. MapReduce 基于 并 行 计 算 的 分 布 式 数据 处 理 

Hadoop MapReduce 是 一 种 分 布 式 海量 数据 处 理 框 架 。 其 采用 主 从 结构 ,在 一 个 
MapReduce 集群 中 有 一 个 控制 结 点 和 多 个 工作 结 点 。 当 集群 运行 时 ,所 有 的 工作 结 点 会 定 
期 地 向 控制 结 点 发 送 心 跳 信 息 ,报告 本 结 点 的 当前 状态 。 收 到 心跳 信息 后 ,控制 结 点 会 根据 
当前 的 工作 情况 和 工作 结 点 自身 的 状态 给 工作 结 点 发 送 指令 信息 。 控 制 结 点 根据 收 到 的 指 
令 信 息 会 完成 相应 的 动作 。MapReduce 框架 实现 的 是 跨 结 点 的 通信 ,擅长 横向 扩充 、 负 载 平 
衡 .失效 恢复 和 一 致 性 等 功能 ,适合 有 很 多 批 处 理 的 大 规模 分 布 式 应 用 ,如 Web 索引 建立 等 。 

基于 MapReduce 写 出 来 的 应 用 程序 能 够 运行 在 由 普通 机 器 组 成 的 大 型 集群 上 ,并 以 一 
种 可 靠 容错 的 方式 并 行 处 理 TB 级 以 上 的 数据 。 这 人 允许 没有 任何 并 行 和 分 布 式 系 统 经 验 的 
编程 者 轻松 利用 一 个 大 型 分 布 式 系统 中 的 资源 。 在 MapReduce 框架 中 ,用 户 进行 的 数据 处 
理工 作 的 基本 单位 是 “作业 ,作业 ?被 分 为 Map 和 Reduce 两 个 阶段 来 执行 ,而 每 个 任务 在 
每 个 阶段 又 有 多 个 任务 在 并 行 执行 ,这 些 任 务 被 分 配 到 多 个 工作 结 点 上 执行 ,完成 基本 的 数 
据 处 理工 作 。 其 中 ,在 Map 阶段 从 分 布 式 文件 系统 中 读 取 数据 ,并 且 将 输入 数据 转换 为 键 - 
值 对 输出 ,经 过 shuffle 过 程 , 即 划分 .合并 和 排序 之 后 ,具有 相同 键 的 键 - 值 对 会 被 聚合 在 一 
起 , 交 给 Reduce 任务 处 理 。Reduce 任务 一 次 会 读 取 所 有 键 系统 的 键 值 对 进行 处 理 , 处 理 后 
的 结果 会 输出 到 分 布 式 系统 。 在 作业 执行 过 程 中 ,系统 会 自动 完成 作业 和 任务 的 监控 .调度 
和 容错 ,用 户 只 需 简单 地 实现 相应 的 接口 即 可 。 

MapReduce 也 采用 了 Master/Slave(M/S) 架 构 。 它 主要 由 以 下 几 个 组 件 组 成 : Client、 
JobTracker、TaskTracker 和 Task, 具 体 如 图 9-6 所 示 。 






































Client [= 
Task 
Client JobTracker Scheduler 
4 
Client [一 













Heartbcat Heartbcat 








































































































TaskTracker TaskTracker TaskTracker 
Map Task| Map Task| Map Task| Map Task| Map Task, Map Task 
Reduce Task| Reduce Task| Reduce Task 
































9-6 ”MapReduce 的 体系 结构 


MapReduce 相对 于 传统 的 海量 数据 处 理 技术 而 言 有 着 巨大 的 优势 : 高 效 、 廉 价 、 弹 性 、 
灵活 ,并且 易 用 。 


目前 ,众多 厂商 已 经 把 MapReduce 框架 集成 到 自己 的 产品 或 解决 方案 中 。 微 软 的 Big 
Data Solution .甲骨 文 的 Oracle Big Data Appliance 等 都 已 经 包含 或 集成 了 Hadoop MapReduce 
框架 。 

2. Spark 分 布 式 内 存 计算 处 理 技 术 

Spark 是 一 个 分 布 式 的 内 存 计算 框架 ,由 加 州 伯克利 大 学 AMP 实验 室 的 Matei 为 主 的 
小 团队 所 开发 ,其 特点 是 能 处 理 大 规模 数据 ,计算 速度 快 。Spark 延续 了 Hadoop 的 
MapReduce 计算 模型 ,但 不 同 于 MapReduce 的 是 Job 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ， 
从 而 不 再 需要 读 / 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 
Map Reduce 的 算法 。 

在 Spark 中 每 个 作业 Job 被 分 解 成 一 系列 任务 Task ,发 送 到 若干 个 服务 器 组 成 的 集群 上 
完成 。Spark 有 分 配 任务 的 主 结 点 Driver 和 执行 计算 的 工作 结 点 Worker。Driver 负责 任务 分 
配 ,资源 安排 结果 汇总 和 容错 等 处 理 , Worker 负责 存放 数据 和 进行 计算 ,如 图 9-7 所 示 。 
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图 9-7 Spark 系统 架构 图 


首先 由 Driver 启动 若干 Worker, 其 次 Worker 在 分 布 式 的 文件 系统 中 读 取 数 据 后 转换 
为 RDD(Resilient Distributed Datasets) ,最 后 对 RDD 在 内 存 中 进行 缓存 和 计算 。Spark 将 
海量 数据 抽象 为 RDD 数据 结构 ,构建 起 整个 Spark 生态 系统 ,提高 数据 处 理 效率 。 

RDD 是 一 个 容错 的 、 并 行 的 数据 结构 ,可 以 让 用 户 显 式 地 将 数据 存储 到 磁盘 和 内 存 中 ， 
并 能 控制 数据 的 分 区 。 同 时 ,RDD 还 提供 了 一 组 丰富 的 操作 来 操作 这 些 数 据 。 在 这 些 操 作 
中 ,诸如 Map、FlatMap、Filter 等 转换 操作 实现 了 Monad 模式 ,很 好 地 契合 了 Scala 的 集合 
操作 。 除 此 之 外 ,RDD 还 提供 了 诸如 join、groupBy、reduceByKey 等 更 为 方便 的 操作 ( 注 
意 ,reduceByKey 是 action ,而 非 transformation) ,以 支持 常见 的 数据 运算 。 

3. Storm 分 布 式 流 处 理 技 术 

流 计算 (stream computing) 主 要 针对 大 量 存 在 的 实时 数据 ( 流 数据 ) ,作为 一 种 高 实时 
性 的 计算 模式 , 流 计算 需要 对 一 定时 间 窗 口内 应 用 系统 产生 新 数据 完成 实时 的 计算 处 理 。 
典型 的 应 用 场景 包括 证 券 数 据 分 析 、 网 站 广告 的 上 下 文 分 析 、 社 交 网 络 的 用 户 行 为 分 析 等 。 
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Storm 实现 了 一 个 数据 流 (data flow) 模 型 ,在 这 个 模型 中 数据 持续 不 断 地 流 经 一 个 由 
很 多 转换 实体 构成 的 网 络 。 一 个 数据 流 的 抽象 称 为 流 (stream) , 流 是 无 限 的 元 组 (tuple) 序 
列 。 元 组 就 像 一 个 可 以 表示 标准 数据 类 型 (如 int float 和 byte 数组 ) 和 用 户 自 定义 类 型 ( 需 
要 额外 序列 化 代码 ) 的 数据 结构 。 每 个 流 由 一 个 唯一 的 ID 来 标识 ,这 个 ID 可 以 用 来 构建 拓 
扑 中 各 个 组 件 的 数据 源 。 

作为 管理 队列 及 工作 者 集群 的 一 种 方式 ,Storm 为 分 布 式 实时 计算 提供 了 一 组 通用 原 
语 , 可 被 用 于 “ 流 处 理 ” 之 中 ,实时 处 理 消息 并 更 新 数据 库 。Storm 也 可 被 用 于 “连续 计算 ” 
(continuous computation) ,对 数据 流 做 连续 查询 ,在 计算 时 就 将 结果 以 流 的 形式 输出 给 用 
户 。 它 还 可 被 用 于 “分 布 式 RPC”, 以 并 行 的 方式 运行 昂贵 的 运算 。 

Storm 主要 架构 由 一 个 主 结 点 (master node) 和 一 组 工作 结 点 (worker nodes) 组 成 , 通 
过 Zookeeper 集群 进行 协调 。 主 结 点 通常 运行 一 个 后 台 程序 Nimbus, 接 收 用 户 提交 的 任 
务 ,并 将 任务 分 配 到 工作 结 点 ,同时 进行 故障 监测 。 工 作 结 点 同样 会 运行 一 个 后 台 程序 
Supervisor, 用 于 接收 工作 指派 并 基于 要 求 运行 工作 进程 Worker。Nimbus 和 Supervisor 
之 间 的 协调 工作 都 是 通过 Zookeeper 集群 来 进行 的 ,具体 如 图 9-8 所 示 。 





图 9-8 Storm 架构 


Storm 比较 擅长 处 理 实时 的 新 数据 和 更 新 数据 库 , 并 兼 具 容错 性 和 可 扩展 性 ; 能 够 进 
行 连续 的 查询 .计算 并 把 结果 即时 反馈 给 客户 端 ,并 且 能 够 进行 分 布 式 远程 程序 调用 ,可 以 
用 来 并 行 搜索 或 处 理 大 集合 的 数据 。 


9.2.5 大 数据 分 析 


物 联 网 .移动 互联 网 再 加 上 常规 互联 网 ,每 天 都 在 产生 体 量 巨大 的 各 类 数据 ; 大 数据 通 
过 云 计算 方式 将 这 些 数 据 筛选 处 理 分 析 ,提取 出 有 用 的 信息 ,这 就 是 大 数据 分 析 。 越 来 越 多 
的 应 用 涉及 大 数据 ,而 大 数据 的 属性 包括 数量 .速度 和 多 样 性 等 都 呈现 出 大 数据 不 断 增 长 的 
复杂 性 ,所 以 大 数据 分 析 可 看 作 是 决定 最 终 数据 是 否 有 价值 的 关键 性 环节 。 

常规 数据 分 析 多 依靠 建立 模型 的 方法 ,而 大 数据 分 析 主 要 是 基于 规模 庞大 的 数据 而 使 
用 统计 学 的 方法 ,其 中 ,语音 识别 和 机 器 翻译 等 技术 有 望 在 大 数据 时 代 取 得 新 的 进展 。 

1. 大 数据 分 析 概 述 

大 数据 分 析 包括 下 述 几 个 基本 点 。 

(1) 可 视 化 分 析 (analytic visualizations) 。 不 管 是 对 数据 分 析 专 家 还 是 普通 用 户 , 大 数 


据 分 析 的 使 用 者 最 基本 的 要 求 都 是 数据 可 视 化 。 可 视 化 能 够 直观 呈现 大 数据 特点 ,容易 被 
理解 ,接受 和 使 用 。 

(2) 数据 挖掘 算法 (data mining algorithms)。 大 数据 分 析 的 核心 是 数据 挖掘 算法 ,一 
方面 基于 不 同 的 数据 类 型 和 格式 ,采用 集群 .分 割 和 孤立 点 分 析 等 算法 深入 数据 内 部 ,更 加 
科学 地 挖掘 出 数据 本 身 的 价值 ; 另 一 方面 ,需要 更 加 快速 地 处 理 数据 ,这 也 是 体现 大 数据 价 
值 的 关键 所 在 。 

(3) 预测 性 分 析 能 力 (predictive analytic capabilities) 。 数 据 分 析 让 人 们 更 好 地 理解 数 
据 , 从 而 能 够 根据 可 视 化 分 析 和 数据 挖掘 结果 做 出 一 些 预测 性 的 判断 。 

(4) 语义 引擎 (semantic engines)。 非 结构 化 数据 的 多 样 性 带 来 数据 分 析 的 新 挑战 ,人 
们 需要 一 系列 的 工具 去 解析 、 提 取 和 分 析 数 据 语 义 。 语 义 引 擎 需要 被 设计 成 能 够 从 “文档 ” 
中 智能 提取 信息 。 

(5) 数据 质量 和 数据 管理 (data quality and master data management)。 数 据 质 量 和 数 
据 管理 是 大 数据 分 析 的 基本 要 求 ,如 此 才能 保证 通过 标准 化 的 流程 和 工具 对 数据 进行 处 理 
以 得 到 一 个 真实 的 和 高 质量 的 分 析 结 果 。 

大 数据 分 析 平 台 提 供 大 数据 云 存储 与 管理 ,分 布 式 并 行 数据 挖掘 任务 执行 和 可 视 化 数 
据 分 析 等 功能 ,主要 由 下 述 模块 构成 。 

Q@ 云 计算 引擎 : 支撑 海量 数据 处 理 、 挖 掘 与 分 析 计 算 。 

@ 工作 流 引 擎 : 包括 数据 处 理 分析 流 程 图 形 化 ,设计 数据 处 理 分 析 流程 ,自动 执行 资 
源 调 度 和 优化 。 

@@ 高 性 能 海量 数据 挖掘 算法 库 : 提供 海量 复杂 数据 处 理 \ 分 析 与 挖掘 的 高 可 扩展 算法 。 

@ 云 存储 : 支撑 海量 数据 存储 与 管理 。 

@ 开放 平台 (open API) : 即 开放 的 应 用 编程 接口 ,提供 数据 挖掘 平台 与 第 三 方 应 用 系 
统 的 扩展 接口 。 

大 数据 分 析 关键 技术 源 于 统计 学 和 计算 机 科学 等 多 个 学 科 , 其 核心 是 能 够 在 不 同 的 数 
据 类 型 中 进行 交叉 分 析 。 

大 数据 分 析 和 挖掘 的 核心 部 件 平台 重要 组 成 部 分 就 是 高 性 能 海量 数据 挖掘 算法 库 , 此 
时 可 采用 MapReduce 等 并 行 处 理 方式 ,将 巨 量 数据 分 解 并 分 布 存 储 , 巾 数据 挖掘 系统 并 行 
处 理 , 并 将 多 个 局 部 处 理 结果 合成 最 终 的 输出 模式 。 

大 数据 挖掘 技术 的 代表 有 Hive 和 Mahout。 

@O Hive: 基于 Hadoop 的 PB 级 数据 仓库 平台 ,在 Hadoop 上 管理 和 查询 数据 并 完成 海 
量 数据 挖掘 。Hive 定义 了 一 个 类 似 于 SQL 的 查询 语言 HQL, 能 够 将 用 户 编写 的 SQL 转 
换 为 相应 的 MapReduce 任务 并 运行 ,习惯 于 使 用 SQL 的 用 户 也 能 够 方便 地 完成 并 行 计算 。 

@ Mahout: 机 器 学 习 与 数据 挖掘 算法 库 , 提 供 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 
实现 ,如 集群 ,分 类 和 推荐 过 滤 等 ,与 Hadoop 结合 后 可 以 提供 分 布 式 数据 分 析 挖 掘 功 能 。 

常规 数据 挖掘 和 大 数据 时 代数 据 挖掘 在 分 析 能 力 上 的 差异 如 下 。 

首先 ,常规 数据 挖掘 所 处 理 的 数据 大 多 都 是 关系 型 数据 库 中 标准 化 和 结构 化 数据 ,而 对 
于 大 数据 而 言 , 更 多 需要 处 理 的 是 半 结 构 化 和 非 结 构 化 的 数据 。 

其 次 ,大 数据 处 理 的 数据 量 与 常规 处 理 的 数据 量 完全 不 在 同一 个 量 级 之 上 。 常 规 数据 
挖掘 采用 抽样 形式 对 数据 进行 样本 分 析 ,大 数据 分 析 则 是 利用 云 计算 超 强 的 计算 处 理 能 力 ， 
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对 庞大 的 数据 量 进行 全 样本 分 析 , 原 有 的 很 多 数据 处 理 方法 已 经 不 能 满足 需求 。 

最 后 ,如 前 所 述 , 应 用 于 决策 问题 的 大 数据 分 析 对 于 数据 处 理 的 时 效 性 有 着 很 高 的 
要 求 。 

这 些 本 质 上 的 区 别 不 仅 要 求 大 数据 使 用 专门 的 数据 储存 技术 和 设备 ,还 要 采用 专门 的 
数据 分 析 方 法 和 使 用 体系 。 

2. 数据 分 析 和 挖掘 技术 

数据 分 析 与 挖掘 中 的 常用 技术 有 关联 分 析 、 聚 类 分 析 、 分 类 与 回归 和 文本 挖 气 算 法 等 。 

1) 关联 分 析 

关联 分 析 是 从 大 量 数据 中 发 现 项 集 之 间 有 趣 和 有 意义 的 关联 和 相关 联系 ,所 发 生 的 联 
系 可 以 用 关联 规则 或 频繁 项 集 的 形式 表示 。 

进行 关联 分 析 之 前 , 先 将 数据 集 看 作 一 个 事务 的 集合 ,每 个 事务 中 包含 若干 条 数据 项 。 
一 个 事务 表示 一 个 有 意义 的 单元 区 间 ,在 这 个 有 意义 的 单元 区 间 中 ,若干 条 数据 共同 出 现 即 
为 一 个 事务 。 关 联 分 析 的 主要 任务 是 从 事务 集中 找 出 数据 之 间 的 强 关联 关系 ,这 些 关系 的 
表现 形式 有 两 种 : 频繁 项 集 和 关联 规则 ,其 中 关联 规则 是 最 终 需 要 的 输出 。 由 于 关联 规则 
难以 直接 从 数据 集中 得 到 ,通常 是 先 从 数据 中 找 出 关联 的 另外 一 种 表现 形式 一 一 频繁 项 集 ， 
然后 再 将 频繁 项 集 转 换 为 关联 规则 ,这 是 因为 通常 一 起 出 现 的 事务 之 间 往 往 存在 一 定 的 关 
系 ,寻找 关联 规则 问题 就 可 以 转换 为 寻找 经 常 在 一 起 出 现 的 数据 子 集 。 

Apriori 算法 和 FP-growth 算法 是 两 种 常用 的 频繁 项 集 发 现 技术 。 

(1) Apriori 算法 : 基于 挖掘 频繁 项 集 发 现 布尔 关联 规则 的 方法 。 通 过 使 用 频繁 项 集 性 
质 的 先 验 知识 ,Apriori 算法 采取 了 一 种 逐 层 搜索 的 迭代 方法 ,其 中 项 集 用 于 探索 (k 十 1) 
项 集 。 首 先 , 通 过 扫描 数据 库 , 累 计 每 个 项 的 技术 ,并 收集 满足 最 小 支持 度 的 项 , 找 出 频繁 1 
项 集 的 集合 ,该 集合 记 为 Li ,其 次 使 用 工 , 找 出 频繁 2 项 集 的 集合 L, ,使 用 工 ; 找 出 工 , 以 此 
类 推 , 直 到 不 能 再 找 出 频繁 & 项 集 , 找 出 每 个 Le 需要 一 次 完整 的 数据 库 扫 描 。 最 后 在 所 有 
的 频繁 项 集中 提取 强 规则 , 即 产 生 用 户 所 感 兴趣 的 关联 规则 。 

(2) FP-growth 算法 : 主要 用 于 解决 发 现 频繁 项 集 。 发 现 频繁 项 集 可 使 用 Apriori 算 
法 解决 ,但 此 时 虽然 利用 Apriori 原理 加 快 了 发 现 速 度 , 但 其 发 现 效率 仍 难以 满足 实际 需 
求 。FP-growth 算法 使 用 一 种 特殊 的 前 级 树 一 一 频繁 模式 树 (Frequent Pattern Tree,FP- 
Tree) 。 前 缀 树 是 一 种 存储 候选 项 集 的 数据 结构 , 树 的 分 支 用 项 名 标识 , 树 中 结 点 存储 后 级 
项 ,路 径 表示 项 集 。FP-Tree 由 频繁 项 头 表 和 项 前 级 树 构成 。 相 对 于 Apriori 生成 频繁 项 集 ， 
FP-growth 算法 生成 频繁 项 集 的 速度 可 以 快 到 几 个 数量 级 以 上 。 关 联 挖掘 的 数据 集 往往 具有 
很 高 的 重复 性 ,使 用 FP-Tree 存储 数据 还 可 以 减少 存储 空间 . 带 来 比较 理想 的 数据 压缩 比 。 

在 关联 分 析 技 术 中 ,还 会 针对 不 同 的 应 用 ,使 用 多 层 和 多 维 关联 规则 。 在 许多 实际 应 用 
中 ,由 于 多 维 数据 空间 数据 的 稀疏 性 ,在 底层 或 原始 层 的 数据 项 之 间 很 难 找 出 强 关 联 规则 。 
在 较 高 层次 上 挖掘 得 到 的 规则 可 能 是 更 为 普通 的 信息 ,但 对 于 一 些 用 户 也 许 是 非常 有 价值 
的 信息 ,这 是 因为 对 于 不 同 的 用 户 来 说 ,信息 的 价值 也 会 不 同 。 巾 此 看 来 ,数据 挖掘 应 该 具 
备 在 多 个 层次 上 进行 挖掘 的 能 力 , 多 维 关联 规则 就 涉及 两 个 或 两 个 以 上 层次 的 关联 规则 。 

2) 聚 类 分 析 

聚 类 分 析 根 据 * 物 以 类 聚 ”的 道理 ,对 样本 或 指标 进行 分 类 的 一 种 多 元 统计 分 析 方 法 , 它 
也 是 数据 挖掘 和 模式 识别 等 研究 中 的 基本 内 容 之 一 ,在 识别 数据 的 内 在 结构 方面 具有 重要 





作用 。 聚 类 分 析 旨 在 发 现 紧密 相关 的 观测 值 群 组 ,使 得 与 属于 不 同 簇 的 观测 值 相 比 ,属于 同 
一 簇 的 观测 值 相互 之 间 尽 可 能 相似 。 

聚 类 分 析 算 法 可 分 为 划分 方法 (partitioning methods) ,层次 方法 (hierarchical methods) 、 基 
于 密度 的 方法 (density-based methods) 、 基 于 网 格 的 方法 (grid-based methods) 和 基于 模型 的 方 
法 (model-based methods)。 以 下 简单 介绍 划分 方法 和 层次 方法 。 

(1) 划分 聚 类 : 对 于 一 个 给 定 的 包含 个 数据 对 象 的 数据 库 , 要 把 其 中 的 对 象 分 为 & 个 
聚 类 ,划分 方法 就 是 运用 一 些 相关 的 算法 将 对 象 集合 划分 成 k 份 ,其 中 每 个 划分 表示 一 个 聚 
类 。 其 中 要 求 属于 一 个 聚 类 中 的 对 象 是 相似 的 ,属于 不 同 聚 类 的 对 象 是 不 相似 的 。 常 用 划 
分 聚 类 包括 K-means、K-Medoids、EM 算法 等 。 

(2) 层次 聚 类 : 将 数据 分 为 若干 组 并 形成 一 个 组 的 树 从 而 进行 聚 类 ,一 般 分 为 自 下 而 
上 聚合 层次 聚 类 方法 AGNES(AGglomerative NESting) 和 自 顶 而 下 分 解 层次 聚 类 方法 
DIANA(DIvsia ANAlysia) 。AGNES 通常 将 每 个 对 象 构 成 一 个 单独 聚 类 ,然后 根据 一 定 标 
准 不 断 进行 聚合 。 例 如 ,对 于 聚 类 Cl 和 C2 来 讲 , 若 Cl 中 对 象 与 C2 中 对 象 之 间 的 欧式 距 
离 为 不 同 聚 类 中 任 两 个 对 象 之 间 的 最 小 距离 , 则 聚 类 Cl 和 C2 就 可 以 进行 聚合 。 两 个 聚 类 
之 间 相 似 程度 是 利用 相应 两 个 聚 类 中 每 个 对 象 之 间 的 最 小 距离 来 加 以 描述 的 。AGNES 方法 
不 断 进 行 聚合 操作 ,直到 所 有 聚 类 最 终 聚 合 为 一 个 聚 类 为 止 。DIANA 方法 首先 是 将 所 有 的 对 
象 集中 在 一 起 构成 了 一 个 聚 类 。 其 次 根据 一 定 原则 ,如 聚 类 中 最 近 对 象 之 间 的 最 大 欧式 距离 
等 对 其 进行 不 断 分 解 , 直 到 每 个 聚 类 均 只 包含 一 个 对 象 为 止 。 层 次 聚 类 算法 能 够 产生 高 质量 
的 聚 类 ,但 也 存在 计算 和 存储 需求 较 大 、 缺 乏 全 局 的 目标 函数 和 合并 决策 不 能 撤销 等 问题 。 

聚 类 算法 的 选择 取决 于 数据 类 型 、. 聚 类 目的 和 实际 应 用 。 当 将 聚 类 分 析 用 作 描 述 或 探 
查 的 工具 时 ,可 以 对 同样 的 数据 尝试 使 用 多 种 算法 ,以 发 现 数据 可 能 揭示 的 结果 。 

3) 分 类 与 回归 

分 类 与 回归 本 质 上 是 两 种 不 同 的 预测 方法 。 

(1) 分 类 : 主要 是 预测 离散 的 目标 变量 ,输出 的 是 离散 值 。 

(2) 回归 : 主要 用 于 预测 连续 的 目标 变量 ,输出 的 是 有 序 值 或 连续 值 。 

分 类 问题 实际 上 是 要 建立 一 个 从 输入 数据 到 分 类 标签 的 映射 。 通 过 机 器 学 习 技 术 可 以 
建立 起 相应 的 映射 模型 ,即使 用 某 种 学 习 算法 ,按照 一 定 策略 对 输入 数据 进行 分 析 , 找 出 一 
个 能 够 很 好 地 拟 合 输入 数据 和 数据 类 标号 的 映射 ,而 该 映射 还 能 够 正确 地 预测 未 知 数据 和 
它 的 类 标号 。 

回归 分 析 实 际 上 是 要 确定 两 种 或 两 种 以 上 变量 之 间 相互 依赖 的 定量 关系 的 统计 分 析 方 
法 。 回 归 分 析 应 用 十 分 广泛 ,按照 涉及 自 变量 个 数 多 少 可 分 为 一 元 回归 分 析 和 多 元 回归 分 
析 ; 按照 自 变 量 和 因 变 量 之 间 关 系 类 型 可 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 。 回 归 的 主 
要 目的 是 预测 数值 型 数据 ,最 直接 的 方法 是 根据 驶 入 数值 做 出 一 个 计算 目标 值 的 公式 也 就 
是 回归 方程 。 回 归 方 法 基本 点 是 优化 回归 方程 中 的 参数 ,从 而 减少 回归 预测 误差 。 

4) 文本 挖掘 算法 

文本 挖掘 (text mining) 由 非 结 构 化 文本 信息 中 获取 用 户 感 兴趣 或 有 用 模式 的 过 程 ,其 
本 质 是 从 大 量 文本 数据 中 抽取 事先 未 知 的 、 可 理解 的 和 最 终 可 用 的 知识 ,同时 使 用 得 到 的 相 
应 知识 更 好 地 组 织 信息 以 便 将 来 参考 使 用 。 

文本 挖掘 主要 用 到 的 工具 包括 文本 分 词 文本 挖掘 和 语义 分 析 等 。 
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5) 数据 可 视 化 技术 

大 数据 可 视 分 析 以 “人 ”作为 分 析 主 体 和 需求 主体 角度 出 发 , 旨 在 利用 计算 机 自动 化 分 
析 能 力 的 同时 ,充分 挖掘 * 人 ”对 于 可 视 化 信息 的 认 知 能 力 优势 ,将 人 、 机 的 各 自强 项 进行 有 
机 融合 。 借 助人 机 交互 式 分 析 方 法 和 交互 技术 ,根据 不 同 用 户 的 需求 对 挖掘 结果 进行 处 理 
并 以 图 形 化 手段 等 直观 的 方式 进行 展现 ,从 而 通过 数据 可 视 化 手段 辅助 人 们 更 为 直观 和 高 
效 地 洞悉 大 数据 背后 的 信息 、 知 识 与 智慧 。 

据 统计 ,人 类 从 外 界 获得 的 信息 约 有 80% 以 上 来 自 于 视觉 系统 , 当 大 数据 以 直观 的 可 
视 化 的 形式 展示 在 分 析 者 面前 时 ,分 析 者 往往 能 够 “一 眼 洞 悉 " 数 据 背 后 隐藏 的 信息 。 例 如 ， 
互联 网 星际 图 将 196 个 国家 的 35 万 个 网 站 数据 整合 起 来 ,并 根据 200 多 万 个 网 站 链接 将 这 
些 互联 网 “星球 ”通过 关系 链 联系 起 来 ,每 一 个 “星球 ”的 大 小 根据 其 网 站 流量 来 决定 ,而 “ 星 
球 ” 之 间 的 距离 远近 则 根据 链接 出 现 的 频率 、 强 度 和 用 户 跳 转 时 创建 的 链接 。 人 们 往往 立即 
就 可 看 出 Facebook 及 Google 是 流量 最 大 的 网 站 。 这 些 * 一 眼 ” 识 别 出 的 图 形 特征 (如 异常 
点 和 相似 的 图 形 标 记 等 ) 在 通过 视觉 就 能 够 相当 容易 地 被 察觉 和 接受 ,而 通过 机 器 计算 却 很 
难 理解 其 含义 。 由 此 可 知 ,大 数据 可 视 分 析 是 大 数据 分 析 不 可 或 缺 的 重要 手段 和 工具 。 

数据 可 视 化 (data visualization) 是 指 应 用 计算 机 图 形 学 和 图 像 处 理 技术 ,将 数据 转换 为 
图 形 或 图 像 在 屏幕 上 显示 出 来 ,并 进行 交互 处 理 的 理论 ,方法 和 技术 。 作 为 可 视 化 技术 在 非 
空间 数据 领域 的 应 用 , 它 使 得 人 们 不 再 局 限于 通过 关系 数据 表 来 观察 和 分 析 数 据 信息 ,而 是 
以 更 为 直观 的 方式 观察 各 类 数据 和 相互 之 间 的 结构 关系 。 

数据 可 视 化 技术 基本 思想 : 将 数据 库 中 每 个 数据 项 表示 为 单个 图 元 元 素 , 大 量 的 数据 
集 最 终 构成 整体 的 数据 图 像 , 同 时 将 数据 的 各 个 属性 值 以 多 维 数据 的 形式 表示 ,便于 人 们 从 
不 同 的 维度 观察 数据 ,从 而 对 数据 进行 更 深入 的 观察 和 分 析 。 

数据 可 视 化 技术 涉及 计算 机 图 形 学 、 图 像 处 理 、 计 算 机 辅助 设计 、 计 算 机 视觉 及 人 机 交 
互 技术 等 多 个 领域 。 传 统 的 可 视 化 交互 通常 基于 电子 表格 做 出 的 数字 列表 ,或 者 以 柱状 图 、 
饼 状 图 等 简单 的 图 形 化 展示 数据 形态 。 随 着 大 数据 时 代 的 来 临 ,数据 之 间 蕴 含 着 更 深层 次 
的 关联 和 某 些 隐 藏 的 规律 , 当 需 要 深入 洞察 数据 , 则 需要 更 先进 的 、 更 多 维度 的 可 视 化 和 交 
互 技术 ,其 中 包括 2D 展示 技术 、3D 泻 染 技术 、 体 感 互动 技术 、 虚 拟 现实 技术 、 增 强 现实 技 
术 、 可 穿戴 技术 和 可 植 入 设备 等 。 


9.3 MongoDB 概述 


MongoDB 是 由 10gen 公司 开发 的 一 款 由 C++ 语言 编写 的 基于 分 布 式 文件 存储 的 数据 
库 。2012 年 5 月 发 布 MongoDB2.1, 2015 年 6 月 发 布 MongoDB 3. 0.4。 

作为 一 种 介 于 RDB 和 非 RDB 之 间 的 产品 ,MongoDB 也 许 是 各 类 非 RDB 中 功能 丰富 
并 且 更 * 像 ”RDB 的 开源 软件 。 

(1) MongoDB 优势 : 体现 在 提高 体 量 巨大 数据 的 访问 效率 ,为 Web 应 用 提供 可 扩展 的 
高 性 能 数据 存储 解决 方案 。 根 据 统计 , 当 数据 量 达到 50GB 以 上 时 ,MongoDB 数据 库 访 问 速 
度 是 MySQL 的 10 倍 以 上 。MongoDB 自 带 分 布 式 文件 系统 GridFS 用 以 支持 大 数据 存储 。 

(2) MongoDB 特征 : 无 表 结 构 ,所 支持 的 数据 结构 相当 松散 ,不 需要 设置 相同 的 字段 ， 
并 且 相 同 的 字段 不 需要 相同 的 数据 类 型 ,由 于 不 需要 定义 表 结 构 ,减少 了 添加 字段 等 表 结 构 


变更 所 需要 的 开销 。 

(3) MongoDB 查询 语言 : 查询 语言 的 语法 类 似 于 面向 对 象 的 数据 查询 语言 ,几乎 可 以 
实现 类 似 RDB 单 表 查询 的 绝 大 部 分 功能 ,同时 支持 对 数据 建立 索引 。 作 为 文档 型 数据 库 ， 
由 于 数据 的 处 理 方式 不 同 ,MongoDB 的 用 语 有 着 自身 的 特点 ,如 RDB 中 的 “关系 表 ” 和 “元 
组 (记录 )? 在 MongoDB 中 分 别称 为 “集合 "和 “文档 ”。 

(4) MongoDB 并 发 读 / 写 效率 : 这 方面 还 不 够 特别 出 色 , 根 据 官方 提供 的 性 能 测试 表 
明 ,大 约 每 秒 可 以 处 理 5000 一 15 000 次 读 / 写 请 求 。 

MongoDB 服务 端 可 运行 在 Linux 9、Windows 或 OS 9 平台 ,支持 32 位 和 64 位 应 用 ， 
默认 端口 为 27017。 推 荐 运行 在 64 位 平台 ,因为 MongoDB 在 32 位 模式 运行 时 支持 的 最 大 
文件 尺寸 为 2GB。 

MongoDB 把 数据 存储 在 文件 中 (默认 路 径 为 : /data/db) ,为 提高 效率 使 用 内 存 映射 文 
件 进行 管理 。 

以 下 简要 介绍 MongoDB 的 安装 与 使 用 。 


9.3.1 Windows 下 安装 MongoDB 


第 一 步 : 从 MongoDB 官网 (https://www. mongodb. com/ download-center) 上 下 载 最 新 的 
MongoDB 的 预 编译 二 进 制 包 , 根 据 不 同 的 计算 机 环境 配置 选择 相应 的 安装 包 , 如 图 9-9 所 示 。 
下 载 的 是 Community Server 3. 27 版 本 。 


Current Stable Release 
(3.2.7) 


(0810712016: Release Notes | Changelog 
Download Source tz | zp 


2008 
出 DOWNLOAD (msi) 


Binany Instslation Instrucbons | Al Version Bnanes 








9-9 下 载 MongoDB 


(1) Windows Server 2008 R2 64-bit and later, with SSL support: 适用 于 64 位 并 支持 
SSL(Secure Socket Layer) 的 Windows 系统 。 

(2) Windows Server 2008 R2 64-bit and later, without SSL support: 适用 于 64 位 且 
不 支持 SSL(Secure Socket Layer) 的 Windows 系统 。 

(3) Windows Vista 32-bit，without SSL support: 适用 于 32 位 且 不 支持 SSL 的 
Windows 系统 。 

(4) Windows Server 2008 64-bit, without SSL support: 适用 于 32 位 且 不 支持 SSL 的 
Windows 系统 。 
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注意 ,在 MongoDB2. 2 版 本 后 已 经 不 再 支持 Windows 9P 系统 。 
第 二 步 : 根据 系统 下 载 相应 版 本 的 安装 包 , 下 载 后 运行 该 安装 包 , 如 图 9-10 所 示 。 





他 MongoDB 3.2.6 2008R2plus SSL (64 bi Setup 一 x 


Welcome to the MongoDB 3.2.6 
2008R2Plus SSL (64 bit) Setup Wizard 


The Setup Wizard allows you to change the way MongoDB 3.2.6 
2008R2plus SSL (64 bit) features are installed on your 

or to remove ft from your computer. Click Next to continue or 
(Cancel to et the Setup Wizard. 





| co 





图 9-10 运行 MongoDB 安装 包 


通过 单 击 Custom( 自 定义 ) 按 钮 来 设置 安装 目录 ,如 图 9-11 所 示 。 





喝 MongoDB 3.2.6 2008R2Plus SSL (64 bit) Setup 一 x 
Choose Setup Type 
Choose the setup type that best suits your needs 
Complete 


All program features will be installed. Requires the most disk space. 
Recommended for most users. 


Allows users to choose which program features will be installed and where they 
will be installed. Recommended for advanced users. 





Back Next Cancel 











图 9-11 选择 Custom 安装 方式 


9.3.2 MongoDB 运行 环境 设置 
1. 运行 MongoDB 服务 器 
方法 一 : 通过 命令 行 的 方式 运行 。 
通过 从 MongoDB 目录 的 bin 目录 中 执行 mongod. e9e 程序 。 先 进入 bin 文件 夹 “C:\> cd 


c:\MongoDB\ bin\”, 再 输入 “Mongod. e9e-dbpath c:\ MongoDB\ data\ db” 命 令 运 行 
MongoDB 服务 器 。 如 果 执 行 成 功 ,会 输出 如 图 9-12 所 示 的 信息 。 


port=27017 dbpath=c: \MongoDB\data\db 64-bit host=home-schooT 

016-06-19T00:14:22. 752+0800 I CONTROL [initandlisten] targetMin0S: Windows 
/Windows Server 2008 R2 
016-06-19T00:14:22. 753+0800 I CONTROL [initandlisten] db version v3.2.6 
016-06-19T00:14:22. 754+0800 I CONTROL [initandlisten] git version: 05552b56 
c7a0b3143a729aaa0838e558dc49b25 
016-06-19T00:14:22. 755+0800 I CONTROL [initandlisten] OpenSSL version: Open 
SL 1.0.1p-fips 9 Jul 2015 
016-06-19T00:14:22. 756+0800 I CONTROL [initandlisten] allocator: tcmalloc 
016-06-19T00:14:22. 757+0800 I CONTROL [initandlisten] modules: none 
I 
I 



















016-06-19T00:14:22. 766+0800 I CONTROL [initandlisten] build environment: 
016-06-19T00:14:22. 767+0800 I CONTROL [initandlisten distmod: 2008plus 


016-06-19T00:14:22. 768+0800 I CONTROL [initandlisten distarch: x86 64 
016-06-19T00:14:22. 769+0800 I CONTROL [initandlisten. target_arch: x86 | 








016-06-19T00:14:22. 771+0800 I CONTROL [initandlisten] options: { storage: 
dbPath: “c:\MongoDB\data\db”} } 








图 9-12 运行 MongoDB 服务 器 


用 浏览 器 访问 http://localhost: 27017/ 会 在 浏览 器 界面 出 现 “It looks like you are 
trying to access MongoDB over HTTP on the native driver port. ”信息 。 

方法 二 : 将 MongoDB 作为 Windows 服务 运行 。 

本 操作 需要 有 管理 员 权 限 才 可 以 执行 以 下 命令 。 进 入 C:\MongoDB\bin\ 目 录 下 ,输入 
以 下 命令 : 

mongod. exe —- logpath "C:\MongoDB\data\log\mongodb. log" -- dbpath "C:\MongoDB\data\db" —- 

serviceName "MongoDB" - install 

通过 执行 “运行 ”一 services. msc 命令 ,可 以 查看 到 添加 了 一 个 MongoDB 服务 ,如 图 9-13 
所 示 。 








区 MongopB ”MongoDB Server 正在 运行 ”自动 本 地 系统 





9-13 ”创建 MongoDB 服务 


将 其 设置 为 手动 并 启动 ,可 随 开机 启动 , 免 去 了 每 次 通过 命令 行 的 方式 运行 程序 。 
如 表 9-2 所 示 为 MongoDB 启动 的 参数 说 明 。 


表 9-2 MongoDB 启动 的 参数 说 明 





























参 数 描 述 
一 bind_ip 绑 定 服 务 卫 , 若 绑 定 127. 0. 0. 1, 则 只 能 本 机 访问 ,不 指定 默认 本 地 所 有 IP 
一 logpath MongoDB 日 志文 件 路 径 ,注意 是 指定 文件 不 是 目录 
一 logappend 使 用 追加 的 方式 写 日 志 
一 dbpath 指定 数据 库 路 径 
一 port 指定 服务 端口 号 ,默认 端口 为 27017 
一 ServiceName 指定 服务 名 称 
一 serviceDisplayName 指定 服务 名 称 , 有 多 个 MongoDB 服务 时 执行 
一 install 指定 作为 一 个 Windows 服务 安装 
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2. 创建 数据 目录 

假设 MongoDB 的 安装 目录 设置 为 “C:\MongoDB\”, MongoDB 将 数据 目录 存储 在 db 
文件 夹 下 。 例 如 ,在 MongoDB 的 安装 目录 下 创建 data 文件 夹 ,并 在 该 文件 夹 下 创建 db 目 
录 。 注 意 ,data 文件 夹 、db 文件 夹 不 会 自动 创建 ,需要 自行 创建 文件 夹 。 也 可 以 通过 命令 行 
的 方式 创建 db 目录 。 

c:\> cd c:\MongoDB\ 

c:\MongoDB > mkdir data 

c:\MongoDB > cd data 

Cc:\MongoDB \data > mkdir db 

c:\MongoDB \data > cd db 

c:\MongoDB\data\db> 

3. MongoDB 后 台 管 理 Shell 

MongoDB Shell 是 MongoDB 自 带 的 交互 式 JavaScript shell ,用 来 对 MongoDB 进行 操 
作 和 管理 的 交互 式 环境 。 

进入 MongoDB 后 台 后 ,默认 会 链接 到 test 文档 (数据 库 ) : 





> mongo 
MongoDB shell version: 3.2.6 
connecting to: test 


9.3.3 可 视 化 管理 软件 


Robomongo 是 一 个 基于 Shell 的 跨 平台 开源 MongoDB 管理 工具 。 财 入 了 JavaScript 
引擎 和 MongoDBmogo。 只 要 会 使 用 Mongo shell, 就 会 使 用 Robomongo。 提 供 语 法 高 亮 、 
自动 完成 .差别 视图 等 可 视 化 模式 。 如 图 9-14 所 示 为 Robomongo 的 界面 。 
| 坊 Robomongo 0.9.0-RC8 - 5 
轩 | 放 Um 

“区 MongoDB Connections x 





Robomongo 








Graats, adit, ranors, olone or reorder connections vis drag af drop, 





Nne Address Auth. Databsse / User 




















Logs 





图 9-14 Robomongo 界面 


1. 建立 MongoDB 数据 库 服 务 器 连接 


先 使 用 对 话 框 中 的 Create 按钮 ,建立 一 个 MogoDB 数据 库 服务 器 的 连接 ,如 图 9-15 


所 示 。 





别 MongoDB Connections 


Craate，edit，remove Slone or reorder connections via drag n drop. 





ane Address 





Auth. Database / User 

















二 











图 9-15 建立 MongoDB 数据 库 服 务 器 连接 
因为 本 地 的 MongoDB 数据 库 服 务 器 地 址 默认 是 localhost: 27017( 可 以 在 MongoDB 


shell 中 更 改 ) 执 行 后 的 结果 如 图 9-16 所 示 。 


保存 后 的 界面 如 图 9-17 所 示 。 





Connection Authentication SSH Adranced 


圆 Connection Settings X 





Tane New Connection 





Choose any oonnection nane that will help you to identify 
this connection. 











Address: |localhost : |27017 











Spacity host and port of MongoDB server. Host can be 
either IPv4, IPv6 or donain nane, 




















rst EE Ca 
图 9-16 创建 连接 


2. 使 用 Robomongo 创建 新 集合 








Robomongo 0.9.0-RC8 
Fle View Options Window Help 


臣 - 局 回 >B 营 
国 New Connection (3) 

> System 

》 目 cam 

> test 





图 9-17 成功 连接 MongoDB 数据 库 


进入 数据 库 egam( 这 个 数据 库 是 之 前 创建 的 ) ,然后 再 创建 一 个 集合 toll_gate, 如 图 9-18 


所 示 





显示 ,如 图 9-19 所 示 。 


创建 完 之 后 进入 集合 toll_gate, 由 于 集合 中 没有 数据 ,因此 在 界面 的 右 方 并 没有 数据 的 
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ee 仿 Create Collection x 
> System 
v 目 exam E 
> 男 coleds 国 localhost:27017 和 目 exam 


Collections Statistics 














” es Collection Name: 
sers 
> toll_gate 
ce 





(a) (b) 


9-18 创建 集合 





Robomongo 0.9.0-RC8 


File View Options Window Help 


匣 - 局 加 Pe 和 营 
二 - -一 - 
New Connecton (3) + ab. getCollectionC toll x | 
> System J 
v 目 exam 
Collections (3) 





本 ev connection 图 localhost:27017 国 ex 


























司 toll_gate @ 0.00! :ec. 











图 9-19 查询 集合 toll_gate 


3. 使 用 Robomongo 插入 文档 
在 此 集合 中 插入 一 份 文档 ,其 具体 操作 如 图 9-20 所 示 。 





介 Robomongo 0.9.0-RC8 


Fle View Options Window Help 


看 -局 加 > a 和 % 
M 图 New Connection (3) + db. getCollection( toll_*…% 
> | | System 
vexam 立 Yew Connection 
v collections (3) 
> 国 col 
>》 国 exam 
>》 国 tolLgate 
> 1 Functions 
> Users 
> test 





副 localhost:27017 EE 











图 9-20 插入 文档 


检查 一 下 文档 是 否 插 和 成功, 成功 的 结果 如 图 9-21 所 示 。 
现在 添加 10 个 文档 如 图 9-22 所 示 。 
保存 之 后 显示 结果 如 图 9-23 所 示 ,表示 添加 文档 成 功 。 


4. 使 用 Robomongo 查询 文档 
现在 从 众多 文档 中 查找 arrival time 的 值 为 2016-06-12 的 文档 。 如 图 9-24 所 示 


令 行 中 输入 查询 命令 , 按 Ctrl 十 Enter 组 合 键 执行 。 


,在 命 









































仿 Robomongo 0.9.0-RC8 一 
Fle View Options Window Help 
熙 "局 加 Pa 鞠 
| + ab. setcollection( toll_"% 
> | system 
Y 目 exam Wew Connection 国 localhost:27017 
Y collections (3) 
> 国 col 
》 国 exam toll_sate 国 0 xee 4[o Ta | 
> 图 olLgaie Key Value Type 
> Functions 
Se Y (1) Objectld("5765f8.. {8 fields} 
人 Objectld("5765f880d45b41c... O 
考 Aa1111 
vehicle type car r 
Ez vehide_color black 9 
加 car speed 900 e 
国 mileage 1000 Double 
ss seat number 40 
arrival time 2016-06-19 09:42:57.000Z ate 
图 9-21 成 功 插入 文档 
画 Nev Connection 加 locslhost:27017 加 ex 








图 9-22 添加 10 个 文档 





i 
carid 
vehide type 


vehide color 
本 car speed 


mileage 





seat number 
arrival time 








加 (5) Objectid("5765f... 





® (9) Objectid("5765f. 
加 (10) Objectid("5765... 
(11) Objectid['5765... 


Value 


{3 fields} 

{6 fields } 

{8 fields} 

{7 fields } 

{8 fields } 

{8 fields} 

{8 fields } 
ObjectldC5765ff68d45b41. 
考 Aag666 

car 

gray 

121 

134 

4 

2016-06-12 07:20:25.000Z 


Type 




















图 9-23 成功 添加 10 个 文档 
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国 New Comection 国 localhost:27017 目 ex 


图 9-24 查询 arrival time 的 值 为 2016-06-12 的 文档 


查询 结果 如 图 9-25 所 示 。 















































如 需 使 用 多 条 件 查询 ,如 查询 6 月 12 日 7 时 整 到 9 时 整 经 过 的 车 辆 ,输入 命令 及 运行 


结果 显示 如 图 9-26 所 示 。 








图 9-25 图 9-24 的 查询 结果 


十 New Connection 加 localhost:27017 国 xn 
国 talete Oo 4[00 mm | 部 目 
Key Value Type 
》 四 (1) Objectid("5765f6... { 8 fields } Object 
> ®® (2) Objectid("5765f6... { 5 fields } 
》 回 (3) Objectid("5765ff6... {8 fields } 
>》 加 (4) Objectld("5765ff6... {6 fields } 
》 回 (5) Objectid("5765f6... { 8 fields } 
| ® (0 Objectld("5765f6... {8 fields } c 
国 .id Objectid("5765ff68d45b41c... 

carid 舞 Aag666 trir 

vehicle type car trir 

vehicle_color gray 

car_speed 121 

mileage 134 

seat number 4 E 

arrival time 2016-06-12 07:20:25.000Z __Date 








兽 New Connection 








国 | localhost:27017 国 exan 


























toll_eate @ 0.001 soo %m ]P | 加 加 目 | 器 
Key Value 
》 辑 (1) Objectid("5765ff68d45b41... {8 fields } 
>》 ® (2) Objectid("5765ff68d45b41... {6 fields } 
lv (3) Objectid("5765ff68d45b41... {8 fields) 
回 jd Objectld("5765ff68d45b41cbb76626.. 
加 carid 专 Aag666 
2 vehide type car String 
vehide color gray String 
car speed 121 suing 
mileage 134 String 
seat number 4 tring 
局 arrivaltime 2016-06-12 07:20.25.000Z Date 








图 9-26 多 条 件 查询 命令 及 查询 结果 


9.4 大 数据 与 物 联 网 和 云 计算 


大 数据 \ 物 联网 和 云 计算 都 是 在 21 世纪 的 第 2 个 10 年 后 得 以 迅猛 发 展 并 且 形 成 了 各 
自 的 技术 领域 。 但 三 者 无 论 是 从 产生 的 实际 背景 .技术 的 交 秋 借用 和 应 用 的 相辅相成 都 有 
着 密切 的 关联 。 


9.4.1 大 数据 与 物 联 网 


物 联网 是 一 种 网 络 环境 ,通过 射频 识别 .红外 感应 器 、 全 球 定位 系统 、 激 光 扫 描 器 和 气体 
感应 器 等 信息 传 感 设备 , 按 约定 的 协议 将 各 类 物品 与 互联 网 连接 起 来 ,彼此 之 间 进 行 通信 联 
络 与 信息 交换 ,以 实现 智能 化 识别 、 定 位 .跟踪 ,监控 和 管理 。 物 联网 的 核心 和 基础 是 互联 
网 ,是 网 络 技 术 由 人 -人 ”的 互联 到 “人 - 物 ”" 和 * 物 - 物 ” 互 联 的 革命 性 拓展 。 物 联网 的 终端 延 
伸 和 扩展 到 了 人 与 各 类 物品 和 物品 与 物品 之 间 , 也 被 称 为 继 计算 机 互联 网 之 后 信息 产业 发 
展 的 第 三 次 浪潮 。 

物 联网 的 突出 特征 是 ,处 于 环境 中 的 每 个 物体 (包括 人 ) 都 可 进行 通信 、 寻 址 和 控制 ,并 
且 在 未 来 将 人 们 所 涉及 的 任何 物体 实现 上 网 联网 。 物 联网 增强 了 人 们 监控 和 测量 真实 世界 
中 发 生 事情 的 能 力 , 如 发 动机 上 的 传感器 传递 了 温度 .速度 和 燃料 损耗 等 数据 ,给 予 了 人 们 
精确 了 解 设备 实时 工作 状态 的 本 领 。 

人 们 所 涉及 接触 到 的 物品 远 远 超过 人 本 身 的 数量 ,因此 物 联网 运行 过 程 中 每 时 每 刻 都 
会 产生 着 体 量 巨大 的 数据 和 相应 的 数据 管理 业务 。 正 是 由 于 对 相关 数据 和 数据 业务 的 不 可 
思议 的 巨大 需求 ,使 得 大 数据 与 物 联 网 的 结合 成 为 一 种 自然 而 然 的 结果 。 

物 联网 中 产生 的 物 联 网 大 数据 主要 有 下 述 两 种 情形 。 

(1) 物 联网 状态 数据 : 这 是 最 主要 的 物 联网 大 数据 。 实 际 上 所 有 终端 设备 都 会 产生 类 
似 的 数据 。 状 态 数据 可 作为 实时 数据 直接 提供 价值 ,也 可 作为 原始 数据 进行 更 复杂 的 分 析 
而 创造 新 的 价值 。 例 如 ,停车 场 的 车 位 监考 设备 ,提供 实时 车 位 状态 信息 ,能 及 时 让 车 主 了 
解 空余 车 位 的 情况 ; 发 动机 上 采集 的 状态 数据 ,与 以 往 报废 发 动机 状态 数据 进行 相关 性 分 
析 , 可 预 判 更 新 发 动机 的 时 机 ,减少 损失 。 

(2) 物 联 网 定位 数据 : 实际 上 是 GPS 应 用 的 必然 结果 。 定 位 数据 可 广泛 应 用 于 公交 车 
定位 物流 信 息 反馈 和 服务 跟踪 等 方面 ,也 可 服务 科学 研究 ,如 给 滇 金丝猴 戴 上 GPS 项 圈 ， 
记录 活动 轨迹 ,研究 其 生活 习性 。 

将 物 联网 感知 的 数据 与 其 他 移动 互联 网 、 常 规 互联 网 采集 的 数据 结合 ,就 形成 了 大 数据 
重要 的 数据 来 源 基 础 。 

物 联网 可 以 汇聚 大 量 数据 ,但 还 需要 具有 访问 、 建 模 和 分 析 的 能 力 。 大 数据 助力 物 联 
网 ,大 数据 分 析 为 物 联网 提供 有 用 的 分 析 , 获 取 价 值 。 大 数据 产生 的 原因 主要 归结 于 互联 
网 .移动 设备 、 物 联网 和 云 计算 等 快速 崛起 。 

物 联网 发 展 离 不 开 大 数据 ,大 数据 推动 物 联网 的 发 展 。 新 时 代 对 “智慧 ”的 要 求 , 外 在 表 
现 就 是 物 联网 ,而 技术 内 涵 之 一 就 是 大 数据 。 


9.4.2 大 数据 与 云 计算 


作为 一 种 新 的 大 规模 分 布 式 计算 模式 , 云 计算 从 云端 按 需 获取 所 需要 的 服务 。 云 计算 
本 身 也 是 一 种 数据 处 理 技术 ,从 某 种 意义 上 可 以 看 作 是 大 数据 的 一 种 业务 模式 。 随 着 数据 
体 量 的 急速 增加 ,如 何 高 效 地 获取 数据 ,有 效 地 深加工 并 最 终 形成 有 价值 的 信息 ,以 及 用 更 
经 济 的 方式 存储 结构 复杂 的 大 量 数据 等 都 是 人 们 面临 的 挑战 性 课题 ,这 些 都 需要 “ 云 ” 来 提 
供 存储 访问 和 计算 的 各 类 强 有 力 的 保障 性 服务 。 

大 数据 的 价值 在 于 对 巨 量 数据 进行 基于 全 样本 和 分 布 式 的 数据 挖掘 ,其 特点 是 采用 的 
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数据 越 来 越 多 ,需要 进行 的 计算 量 越 来 越 大 \ 数 据 管 理 越 来 越 呈 现 出 动态 化 的 形势 .数据 处 
理 要 求 越 来 越 实 时 ,使 得 它 必须 依托 云 计算 的 分 布 式 处 理 、 分 布 式 数 据 库 、` 云 存储 和 虚拟 化 
技术 。 云 计算 也 可 以 看 作 是 在 大 数据 背景 下 催生 出 来 的 一 种 基础 架构 和 商业 模式 。 云 计算 
技术 将 分 布 各 地 的 CPU 整合 管理 使 用 ,具备 动态 资源 分 配 和 调度 、 虚 拟 化 和 高 可 用 性 的 特 
点 ,有 效 地 降低 成 本 ,提高 数据 挖掘 效率 。 

从 技术 上 看 , 云 计 算 关 键 技术 中 所 涉及 的 海量 数据 存储 技术 ,海量 数据 管理 技术 和 
MapReduce 编程 模型 ,都 是 大 数据 技术 的 基础 。 

云 计算 和 大 数据 的 关系 是 静 与 动 的 关系 。 云 计算 强调 的 是 计算 , 即 处 理 数 据 的 行动 ,这 
就 是 “ 动 ” 的 概念 ; 大 数据 则 是 实施 计算 的 对 象 ,一 旦 形成 就 相对 稳定 ,这 就 是 “ 静 ” 的 含义 。 
结合 实际 应 用 ,前 者 更 强调 计算 处 理 能 力 ,后 者 却 看 重 存储 管理 能 力 。 如 果 将 大 数据 看 作 是 
一 笔 巨大 财富 ,其 中 蕴含 着 极 具 价 值 的 宝藏 , 云 计 算 就 是 挖掘 和 利用 宝藏 的 利器 。 缺 乏 强大 
的 计算 能 力 , 数 据 宝藏 终究 是 云 中 之 月 ; 没有 大 数据 的 积累 积淀 , 云 计算 也 只 能 是 层 龙 
之 妨 。 


9.4.3 大 数据 、 物 联网 与 云 计 算 


有 人 提出 过 “互联 网 的 未 来 功能 和 结构 将 与 人 类 大 脑 高 度 相 似 , 也 将 具备 互联 网 虚拟 感 
觉 ,虚拟 运动 ,虚拟 中 枢 和 虚拟 记忆 神经 系统 ”的 说 法 。 物 联网 对 应 互联 网 的 感觉 认 知 和 运 
动 神经 系统 ,是 “互联 网 大 脑 ”收集 信息 的 来 源 , 就 像 人 类 的 眼 、 耳 \ 口 、 自 和 四 有 歧 等 感知 器 官 ， 
源源 不 断 地 向 互联 网 大 数据 汇聚 数据 和 接收 数据 。 云 计算 则 对 应 于 中 枢 系 统 ,也 就 是 相当 
于 人 的 “大 脑 ”。 作 为 互联 网 的 关键 硬件 层 和 核心 软件 层 的 集合 , 云 计算 应 当 是 互联 网 智慧 
和 意识 产生 的 基础 。 大 数据 代表 了 互联 网 的 数据 信息 层 ,而 物 联网 、 传 统 互联 网 及 移动 互联 
网 都 在 源源 不 断 地 向 互联 网 信息 层 汇 聚 数据 和 接收 数据 。 可 将 物 联网 ` 云 计算 与 大 数据 三 
者 关系 表现 如 图 9-27 所 示 。 
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图 9-27 物 联网 、 云 计算 与 大 数据 三 者 关系 


感应 识别 、 网 络 传输 ,管理 服务 和 综合 应 用 是 物 联网 的 4 个 基本 组 成 部 分 ,其 中 网 络 传 
输 和 管理 服务 都 需要 使 用 云 计算 技术 ,因为 使 用 云 计 算 可 能 是 物 联 网 流通 过 程 中 的 一 种 更 
为 经 济 的 方式 。 

首先 ,建设 物 联 网 除了 需要 传感器 和 传输 通道 外 ,还 需要 高 效 的 、 动 态 的 和 可 以 大 规模 


扩展 的 技术 资源 处 理 能 力 , 云 计算 带 来 的 高 效率 的 运算 模式 正好 可 以 为 其 提供 良好 的 应 用 
基础 。 云 计算 是 实现 物 联 网 的 核心 ,运用 云 计算 模式 使 物 联网 中 以 兆 计算 的 各 类 物品 的 实 
时 动态 管理 和 智能 分 析 变 得 可 能 。 

其 次 , 云 计算 促进 物 联网 和 互联 网 的 智能 融合 ,从 而 构建 智慧 地 球 。 物 联网 和 互联 网 的 
融合 ,需要 更 高 层次 的 整合 ,同样 也 需要 依靠 高 效 的 ` 动 态 的 .可 以 大 规模 扩展 的 技术 资源 处 
理 能 力 ,而 这 正 是 云 计 算 模式 所 擅长 的 。 

最 后 , 物 联网 的 发 展 又 推动 了 云 计算 技术 的 进步 ,因为 只 有 真正 与 物 联网 结合 后 , 云 计 
算 才 算是 真正 意义 上 从 概念 走向 应 用 ,两 者 缺 一 不 可 。 

大 数据 \ 物 联网 和 云 计算 互生 互 存 和 共 欣 共 荣 ,共同 推动 信息 技术 向 前 迅猛 发 展 。 


本 章 小 结 


大 数据 是 来 自 网 络 空 间 的 一 类 特定 数据 集合 , 自 其 出 现 以 来 ,得 到 了 多 方面 的 关注 与 重 
视 。 其 影响 甚至 超过 了 20 世纪 计算 机 的 诞生 发 展 ,也 超过 了 21 世纪 互联 网 的 迅猛 普及 。 

对 于 政府 来 说 ,大 数据 关系 到 国家 竞争 力 、 关 系 到 国家 发 展 、 关 系 到 国民 大 众 , 由 此 世界 
主要 强国 都 竭力 推行 大 数据 战略 。 

对 于 商界 而 言 ,大 数据 已 经 进入 实用 ,其 关联 的 商业 价值 重大 ,是 企业 竞争 的 利器 坚 具 ， 
由 此 跨国 公司 巨头 都 已 率先 投身 于 大 数据 开发 与 使 用 。 

基于 计算 机 科技 本 身 考 虑 ,大 数据 技术 带 来 了 新 的 挑战 , 带 来 了 数据 管理 方面 学 科 整 合 
与 技术 攻关 的 重要 机 遇 , 由 此 诞生 了 一 个 极 具 发 展 前 景 的 学 科 方 向 一 一 数据 科学 。 

大 数据 是 一 个 诞生 不 久 并 正在 迅速 发 展 的 新 的 数据 管理 技术 领域 ,对 于 大 数据 概念 的 
科学 含义 仍 在 探讨 过 程 中 ,这 实际 上 也 正 是 大 数据 学 科 具 有 旺盛 生命 力 和 广阔 发 展 前 景 的 
基本 标志 。 大 数据 概念 在 技术 层面 上 的 内 涵 主 要 包含 在 4V 特征 描述 中 ,应 用 层面 上 的 内 
涵 主 要 就 是 着 眼 于 决策 问题 。 其 语义 表示 中 的 “大 ”或 者 说 “多 ”不 仅 具 有 其 字面 上 常规 含 
义 ,还 应 该 具有 与 一 般 常 说 的 “数据 "或 “海量 数据 ”的 差异 。 大 数据 首先 是 需要 其 体 量 大 到 
PB 级 别 , 量 变 引 发 质变 ,这 个 级 别 的 数据 量 是 常规 数据 管理 技术 所 难以 胜任 的 , 随 之 会 带 来 
一 系列 新 的 技术 甚至 是 学 科 方 面 的 问题 。PB 量 级 的 数据 难以 使 用 常规 方法 进行 采集 ; PB 
量 级 的 数据 不 会 只 有 单一 的 数据 来 源 , 由 此 带 来 相 异 的 数据 类 型 和 多 样 的 数据 格式 ; PB 量 
级 的 数据 还 具有 数据 产生 与 数据 消耗 的 时 间 窗 口 严 格 限定 ,以 及 数据 价值 密度 低 的 特点 。 
所 有 这 些 , 自 然 就 带 来 了 数据 存储 和 数据 分 析 的 挑战 : PB 量 级 的 数据 只 能 进行 分 布 式 存 
储 ; 分 布 式 存储 的 数据 需要 配置 并 行 或 并 发 计算 模式 ; 巨大 的 数据 量 和 广泛 的 分 布 范围 通 
常 都 不 能 完全 基于 专用 的 服务 器 网 络 系统 ,在 实际 应 用 中 需要 调用 成 千 上 万 廉价 服务 器 和 
PC 以 组 成 对 于 用 户 透明 的 大 数据 存储 与 处 理 网 络 等 。 由 此 也 就 形成 了 一 系列 技术 架构 、 
技术 研发 甚至 学 科 级 别 的 重要 研究 课题 。 

无 论 大 数据 还 是 常规 数据 都 需 遵循 数据 处 理 的 一 般 规律 ,大 数据 处 理 的 基本 流程 与 常 
规 数据 本 质 上 并 无 太 大 差异 .区别 在 于 相应 技术 框架 与 技术 实现 方面 。 由 于 要 处 理 巨 量 的 
非 结 构 化 数据 ,当前 大 数据 在 各 个 处 理 环节 中 采用 不 同 于 常规 数据 并 行 处 理 (MPI) 的 
MapReduce 方式 ,而 数据 存储 管理 方面 则 采取 数据 结构 要 求 更 加 宽松 的 NoSQL 数据 库 。 

大 数据 管理 是 对 现 有 数据 库 技术 的 挑战 ,其 带 来 的 影响 是 多 方面 的 。 例 如 ,大 数据 时 代 
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处 理 数据 理念 上 的 三 大 转变 : 由 抽样 分 析 到 整体 分 析 转 变 , 由 精确 分 析 到 容错 分 析 转 变 , 由 
绞 尽 脑汁 地 “ 知 其 所 以 然 ” 到 只 关注 价值 实现 的 “ 知 其 然 ” 的 转变 等 。 当 然 , 这 并 不 是 对 “ 抽 
样 “ 精 确 " 和 “因果 ”分 析 思 维 的 否定 ,而 是 在 更 广阔 的 视野 下 讨论 了 这 些 常 规 和 经 典 分 析 模 
式 的 边界 。 不 同 的 情形 需要 采用 不 同 的 应 对 处 理 , 这 不 仅 只 是 针对 具体 的 技术 手段 ,也 可 以 
针对 更 高 层面 的 思维 模式 而 言 。 事 实 一 再 表明 "上帝 的 归 上 帝 , 凯 撤 的 归 凯 撤 ” 这 一 至 理 名 
言 确 实 具 有 一 般 的 更 为 广泛 的 意义 。 

技术 革新 特别 是 技术 创新 对 于 人 类 世界 可 以 产生 巨大 的 和 多 方面 的 影响 , 较 远 的 如 
20 世纪 产生 发 展 的 计算 机 技术 , 较 近 的 如 21 世纪 来 势 迅 猛 的 互联 网 技术 。 对 于 大 数据 技 
术 ,不 少 人 也 怀 有 类 似 的 期 望 。 现 在 看 来 ,万事 万 物 的 数字 数据 化 进程 和 PB 量 级 数据 交叉 
复 用 带 来 的 巨大 价值 显现 有 可 能 为 人 类 社会 塑 建 起 所 谓 的 数据 文化 氛围 与 环境 。 

当然 ,现今 大 数据 技术 本 身 也 面临 着 产业 生态 环境 ,数据 安全 隐私 和 信息 公正 公开 等 各 
类 挑战 性 课题 。 正 如 大 数据 概念 的 学 科 内 涵 与 技术 外 延 还 在 探讨 之 中 那样 ,这 些 都 是 来 自 
于 大 数据 旺盛 生命 力 的 内 在 驱动 。 

大 数据 时 代 中 大 数据 与 云 计算 、 物 联网 的 关系 相辅相成 , 密 不 可 分 。 大 数据 产生 的 原因 
离 不 开 物 联网 等 提供 的 巨 量 数据 ,大 数据 分 析 则 使 之 转换 为 价值 ,又 离 不 开 云 计算 对 海量 数 
据 的 分 布 式 存储 、 分 布 式 管理 的 能 力 。 总 之 , 物 联 网 与 云 计 算 助 力 大 数据 革命 ,共同 推动 了 
大 数据 时 代 的 到 来 。 
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网 络 数据 和 移动 对 象 等 新 型 数据 的 数据 量 巨大 数据 结构 复杂 查询 类 型 众多 和 应 用 范 
围 广泛 ,使 用 相应 的 数据 库 技 术 对 其 进行 有 效 管理 是 进入 21 世纪 后 对 计算 机 科学 技术 应 用 
的 重要 挑战 之 一 。 网 络 数据 中 的 XML 和 移动 对 象 数据 都 可 以 建立 起 合适 的 数据 模型 , 因 
此 建立 相应 的 XML 数据 库 和 移动 对 象 数据 库 就 有 了 必需 的 基础 。 实 际 上 ,它们 已 经 成 为 
了 当前 数据 库 技术 的 热点 领域 之 一 。 如 前 所 述 , 从 事务 管理 进入 到 时 间 和 空间 维度 考量 是 
数据 管理 实际 应 用 的 驱动 ,也 是 数据 库 技术 深入 发 展 的 必须 。 添 加 了 时 间 标 签 的 时 态 XML 
数据 是 常规 XML 数据 的 重要 组 成 部 分 ,而 移动 对 象 数据 本 身 就 与 时 间 与 空间 因素 密切 相 
关 。 由 于 难以 建立 像 RDB 那样 成 熟 的 商业 化 DBMS , 而 数据 管理 核心 是 数据 查询 ,因此 , 面 
对 实际 应 用 的 强大 推动 ,近年 来 面向 两 者 的 数据 索引 查询 技术 日 益 引 起 人 们 的 关注 ,成 为 研 
究 新 型 数据 管理 的 一 项 基本 工作 。 本 章 讨论 一 种 时 态 数据 索引 技术 (TDindex) ,并 以 此 为 
基础 ,着 眼 于 时 间 查 询 与 相应 特定 数据 类 型 自身 特征 查询 的 协同 整合 ,分 别 讨论 时 态 XML 
数据 索引 (TX-tree) 和 移动 对 象 数据 索引 (pm-tree)。 


10.1 时 态 数据 索引 概述 


基于 有 效 时 间 的 时 态 数据 (Temporal Data) 可 以 表示 为 二 元 组 Td =<D,VT>, 其 中 D 
是 常规 的 不 带 时 间 标 签 的 数据 即 非 时 态 数据 。 设 VTs 人 VTe, 以 VTs 和 VTe 为 始点 和 终 
点 的 有 效 时 间 期 间 VT 标记 为 VT 二 [VTs,VTe) ,并 将 Td 的 有 效 时 间 期 间 记 为 VT(CTd) 。 

从 数学 角度 考虑 ,VT 二 [VTs,VTe) 可 看 作 VTs-VTe 平面 上 的 点 (VTs,VTe) 。 如 果 
将 给 定时 态 数据 集合 E 的 相同 的 时 间 期 间 只 计算 一 次 并 将 其 记 为 下 ,由 此 就 建立 起 了 到 
VTs-VTe 平面 一 个 点 集 H(T) 之 间 的 一 一 对 应 关系 P*>* HCT) : 

VT= [VTs,VTe) >P = (VTs,VTe) 
本 章 讨论 中 ,在 不 引起 混淆 情况 下 将 不 刻意 区 分 和 H(T)。 
VY Po。E H(T), col(P,) 表 示 HCT) 中 满足 条 件 VTs(P) 二 VTs(Po) 的 点 P 的 集合 , 即 
col(P,) = {P| (VTs(P) = VTs(P,)) APE HOT)} 


10.1.1 基于 拟 序 时 态 数据 结构 


数据 索引 实际 上 都 是 以 给 定数 据 集合 上 的 某 种 数据 结构 为 基础 的 。 以 下 讨论 基于 拟 序 
关系 的 时 态 数据 结构 。 

1. 时 态 拟 序 关 系 

为 构建 所 需 的 时 态 数据 结构 ,引入 下 述 相关 概念 。 


H 
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【定义 10-1】 〈 拟 序 关系 和 线 序 分 枝 ) 设 已 是 时 态 数据 集合 。 
(1) E 上 的 时 态 关 系 亏 。 对 于 Td 、Td:E 巨 ,定义 下 上 的 时 态 关系 过 如 下 。 
Th TOSVT(CTAYE VICTE) 

当 一 (Tdi 坊 Td;) 和 一 (Tds 志 Tdi), 则 称 Td 和 Td; 时 态 不 相 容 , 记 为 Tdi 志 过 Td;。 

(2) E 上 的 拟 序 关 系 。 如 果 R 是 集合 EE 上 一 个 满足 自 反 和 传递 的 关系 , 则 称 尺 是 EE 上 
的 一 个 拟 序 (quasi-order) 。 

可 以 验证 ,(1) 中 过 为 拟 序 关系 , 称 其 为 时 态 数据 集合 上 的 时 态 拟 序 (temporal quasi- 
order) 。 

(3) 线 序 分 枝 。 设 已 是 具 志 的 时 态 拟 序 集合 ,已 中 一 个 全 序 分 枝 称 为 E 的 一 个 线 序 分 
枝 (Linear Order Branch，LOB) 。 

由 于 主要 讨论 数据 的 时 态 操 作 ,为 叙述 简洁 ,本章 中 除 特殊 说 明 外 ,时 态 数据 集 已 上 拟 
序 也 看 作 是 时 间 期 间 集合 愉 上 的 拟 序 。 

以 下 讨论 中 通常 将 Td 和 VT(Td)“ 有 意 混用 ”地 记 为 u.v 和 w 等 。 

2. 下 右 优先 算法 (DRFT) 

时 间 期 间 集合 王 上 元 素 按照 拟 序 关 系 组 织 成 为 线 序 分 枝 的 集合 实际 上 就 是 建立 起 卫 
上 的 数据 结构 ,为 此 首先 需要 讨论 卫 中 元 素 基于 拟 序 的 遍历 算法 。 

算法 基本 思想 : 从 及 (T) “最 左上 方 ” 点 开始 ,根据 同 列 优先 原则 进行 构建 LOB, 直到 
(TT) 所 有 元 素 被 选 入 相应 LOB 终止 。 在 LOB 中 的 元 素 满足 前 一 个 元 素 的 时 间 期 间 包 含 
后 一 个 元 素 的 时 间 期 间 。 这 就 是 下 述 的 下 右 优 先 遍 历 算法 (DRFT)。 

1) 有 H(T)* 下 ( 布 ) 优 先 ” 遍 历 

【算法 10-1】 下 右 优 先 遍历 算 法 (Down and Right First Traverse, DRFT) 

由 五 (T) “最 左上 方 ”点 u(i, 站 开始 ,P=u(i, 站 ,Li 一 {P},k 二 1。 

(1) 沿 col 人 遍历 到 互 (P) “最 后 "点 K(iwm) ,i 三 m 三 j。 将 遍历 到 的 点 依次 放 入 工 ;， 
P=K(i,m)., 

(2) 考察 是 否 存 在 N(i 十 1,m) EH(T) ,满足 VTe(N) 三 VTe (K), 若 存在 ,将 其 放 入 
Li, 返 回 步 骤 (1); 否则 ,i 十 十 ,检查 是 否 i 二 m, 若 是 ,执行 (3) , 若 否 ,继续 执行 (2) 。 

(3) 输出 列表 工 ;。 

(4) HH(T)=HOD\N Ls 车 昌 (T) 关 名,k 十 十 ,返回 步 又 (1)。 

按 DRFT 算法 得 到 线 序 分 枝 LOB==< P, ,P, ,…,P > 和 旷 (遍历 序列 (=< 工 ， 
Ls,…,L, >, 其 中 LL;(1 志 i 过 m) 是 遍历 子 集 都 按照 算法 获得 的 次 序 排序 。 

设 VTs(T) 二 max{VTs(w)1uET),VTe(T) 一 max{VTe(w)|uET), 则 算法 10-1 时 间 
复杂 度 为 OC((VTs(T) XVTe(T))/2)。 

2) 之 (T) 基 本 性 质 


由 DRFT 算法 获得 的 遍历 分 枝 序列 > ) (T) 性 质 定理 。 
【定理 10-1】 《遍历 分 枝 序列 >) (T) 性 质 ) 下 述 结论 成 立 。 
() >) (DD) 一 < ,La …,L> 是 一 的 一 个 划分 (partition) 。 


(2) 设 VTs(CLD) 和 VTe(LD) 分 别 是 LI 委 i 委 mm) 中 元 素 始 点 和 终点 序列 ,VTsCLi) 单 
调 增加 ,VTe(L;) 单 调 减 少 。 





由 DRFT 算法 就 可 以 得 到 定理 的 证 明 。 

按照 定义 10-1, 由 算法 10-1 得 到 的 本 遍历 子 集 L; 就 是 TT 的 LOB;(1 二 im)。 上 述 定 
理 说 明 , 当 完 成 拟 序 遍历 之 后 ,对 于 每 个 线 序 分 枝 LOB 来 说 ,还 得 到 了 两 个 进行 了 排序 的 序 
列 , 即 单调 递增 始点 序列 和 单调 递减 的 终点 序列 ,这 对 于 此 后 建立 索引 的 查询 算法 是 非常 重 
要 的 。 

3. 线 序 划 分 与 最 小 线 序 划 分 

前 述 对 时 间 期 间 集合 已 进行 拟 序 遍 历 结 果 就 是 将 EE 中 的 数据 进行 分 类 ,每 个 LOB 就 
表示 一 种 类 型 ,类 型 中 的 元 素 具 有 “一 个 包含 一 个 ”的 全 序 结 构 。 由 于 构建 DRFT 的 特定 要 
求 ,得 到 的 LOB 都 是 彼此 不 交 的 。 在 离散 数学 中 ,如果 一 个 集合 被 分 隔 为 多 个 子 集 的 并 
集 , 并 且 这 些 子 集 彼此 不 交 , 所 有 这 样子 集 的 集合 就 构成 了 上 的 一 个 划分 。 因 此 由 
DRFT 得 到 的 全 体 线 序 分 枝 集合 就 构成 了 E 上 的 一 个 划分 。 

1) 线 序 划分 与 数据 结构 

【定义 10-2】 ( 线 序 划 分 ) 由 DRFT 算法 得 到 的 >)(T) = <L, Ls,L, > VL， 
Li€ DijLiNL=, 且 UL=T(1 i,j 达 m), 定 义 为 T 上 的 一 个 线 序 划分 
(Linear Order Partition, LOP) 并 记 为 LOP(T) = <Li,Ls,*… ,Ln >。 

由 3 (T) 定义 了 下 上 的 拟 序 关 系 时 态 数据 结构 (Quasi-Order Temporal Data 
Structure, QOTDS) 。 

设 ww ELOB, LOB 包括 w 在 内 的 所 有 wo 的 “前 驱 ? 构 成 的 片段 记 为 Lp(uo), 包 含 uo 
在 内 的 所 有 wu “后继” 元 素 构成 的 片段 记 为 LsCuo ) 。 

2) 四 分 区 域 及 其 性 质 

可 以 通过 昌 (T) 中 给 定点 wo 将 整个 划分 为 与 we 具有 拟 序 关联 的 4 个 区 域 。 

【定义 10-3】〗】 《五 ( 门 四 分 区 域 ) YaoE 感 CP) , 则 xz 将 瓦 (分 为 如 下 4 个 子 区 域 。 

(1) LUCu ) 一 (zl wu€E HC(T)AVTs(WEVTs(u) MVTe(u )EVTe(u)}, 

(2) LD(uo)= {ul wu EH(T) AVTsGQW) EVTsCu) MVTe(wW) VTe(u))}. 

(3) RUGu)= {ul uE HCD) AVTs(u) <VTsCu) AVTe(u ) <VTe(u)}., 

(4) RD(uo)= {ul wu EH(T)AVTs(u SVTsC(W) NAVTe(wW) SVTe(u))}, 

LU(wo)、LDCuo)、RU(wo) 和 RDCuo) 分 别称 为 日 (T) 关 于 wo 的 “左上 ”“ 左 下”“ 右 上 ”和 
“ 右 下 ” 子 区 域 。 为 叙述 方便 ,定义 RDCwuo) 中 子 集 RDO 如 下 。 

RDOCe) = {u | u € HO(T) A (VTs(w) SVTsG0)) A (VTelw) < VTe(wu)))} 

【 例 10-1】 基于 w 王 35 的 瓦 ( 记 四 分 区 域 划分 如 图 10-1 所 示 。 

35SLU(35) 5 35NRU(35)=@ 


1 URG5) 
26 1 46 
LUG35 Fr 下-- 一 -一 一 
es 国 | 55 
24 1 和 44 
| RDOG65 ~ DGs) 
LD(G35) 1 RDOG5)S35 
[ 
[ 


图 10-1 基于 ww 一 35 的 有 (TT) 四 分 区 域 划 分 
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【定理 10-2】 (四 分 区 域 性 质 定 理 )V uo € (了 ) ,下 述 结论 成 立 : 

(1) ww cmELUCw)。 

(2) ww Euo wo EE RDO ) 。 

(3) wv wo E RU(wu) V vo ELD(uo) 

(4) w ERU(u) wNvw = 

证 明 (1); 设 w=[io,jo) ,w==[ko ,00) ,ww 态 w eaEm Ro 三 io ,jo 三 lo vo ELU(wuo), 同 
理 可 证 (2)、(3) 和 (4)。 

3) 最 小 线 序 划 分 

如 同 对 树 和 图 进行 某 种 意义 下 的 遍历 具有 多 种 方式 ,在 时 间 期 间 集合 EE 上 实施 拟 序 遍 
历 还 可 以 有 多 种 方式 ,并 由 此 建立 起 相应 的 线 序 分 枝 LOB 的 集合 ,进而 还 可 以 认为 由 此 构 
建 的 线 序 划 分 LOP 也 可 有 多 种 方式 ,由 于 线 序 划分 是 建立 相应 时 态 索 引 的 基本 出 发 点 ,从 
数据 操作 效率 考虑 ,选用 的 基于 LOP 的 时 态 数据 结构 应 当 尽 可 能 简洁 。 有 具体 而 言 ,就 是 采 
用 的 LOP 应 当 具 有 较 少 LOB 个 数 ,或 者 等 价 地 讲 ,LOP 中 的 LOB 应 当 包 含 尽 可 能 多 的 时 
间 期 间 。 因 此 ,对 于 巨 中 可 能 的 LOP, 可 以 将 LOP 中 包含 多 少 的 LOB 作为 LOP“ 优 劣 ” 的 
一 种 判定 标准 。 

【定义 10-4】 (最 小 线 序 划分 ) 设 LOP。 是 厂 上 线 序 划分 ,对 任意 厂 上 的 LOP, 如 成 立 
| LOP。| 志 |LOP|, 则 称 LOP。 是 夏 上 最 小 线 序 划分 (Minimum Linear Order Partition， 
MLOP) 。 

由 上 述 引 入 的 四 分 区 域 概念 ,可 以 证 明 MLOP 的 存在 性 定理 。 

【定理 10-3】 (MLOP 存在 定理 ) 由 算法 10-1 构建 的 LOP 是 MLOP。 

证 明 : 设 由 算法 10-1 得 到 LOP 二 <Li,Ls，…,L，>, 其 中 L; 由 计算 顺序 排序 , 则 
VauoELi(I<i 委 mm),， jxuoEL-iyxo 二 过 xio 。 事 实 上 ,只 需 说 明了 wEL- 且 mwELDCua0)。 
假设 这 样 的 mw 不 存在 ,LSLUCa0) , 则 记 ERDCminL ,) ,与 LOB 是 划分 矛盾 。 设 由 此 得 
到 的 结 点 为 ty :un -ii 设 wn 是 Ls 上 任意 一 个 给 定点 , 则 成 立 w_1 ELD(w)(1 达 im)， 
即 ii ,ta，…yan-iytn 两 两 互 不 相 容 。 任 何 线 序 划 分 至 少 有 m 个 LOB。 定 理 得 证 。 

定理 10-3 表明 ,按照 DRFT 算法 得 到 的 就 是 一 种 MLOP, 在 上 述 意 义 下 具有 “最 优 
性 ”"。 以 下 提 及 的 LOP 均 指 的 是 MLOP。 


10.1.2 时 态 数 据 索 引 


时 态 数据 处 理 的 关键 技术 是 其 中 “时 间 元 素 ” 与 “数据 本 体 ” 之 间 的 整合 。 具 体 整 合 实现 
方式 由 所 处 理 时 态 数据 的 应 用 场景 确定 。 

(1) 对 于 时 态 关 系数 据 或 时 态 对 象 关 系数 据 来 说 ,时 间 元 素 可 以 “逻辑 "地 看 作 是 时 态 
数据 元 组 所 具有 多 种 “属性 ”中 的 一 种 (即时 间 属 性 ) ,查询 中 可 以 采用 先进 行 “时 间 ”* 属 性 得 
选 再 进行 数据 本 体 处 理 的 “简单 耦合 "方式 。 

(2) 对 于 各 类 新 型 时 态 数据 ,如 时 态 XML 和 移动 对 象 数据 等 ,应 用 场景 更 为 复杂 ,时间 
元 素 与 数据 本 体 在 处 理 过 程 中 交织 纠缠 ,需要 在 更 为 精细 的 场景 层面 上 考虑 “时 间 ” 与 “ 非 时 
间 ” 的 “协同 整合 ”。 

(3) 对 于 “简单 看 合 ”, 相 应 时 态 处 理 本 质 上 可 看 作 只 是 对 “时 间 标 签 ” 的 特殊 处 理 。 在 
数据 处 理 过 程 中 “简单 耦合 "可 借鉴 经 典 的 索引 方法 ,如 B1 -tree。 


(4) 对 于 “协同 整合 ”, 除 对 时 间 元 素 进行 技术 考量 之 外 ,还 需要 重点 研究 时 间 因 素 与 应 
用 场景 的 有 效 配 置 , 即 “协同 整合 "需要 面临 各 类 新 的 问题 。 可 以 认为 “协同 整合 "过程 从 索 
引 构 建 角 度 来 看 就 是 相关 时 态 数据 的 划分 或 分 割 。 

前 述 的 LOP 实际 上 就 是 以 “时 间 元 素 ” 为 导向 建立 起 来 的 一 般 时 态 数 据 结 构 。 以 其 为 
基础 ,可 建立 处 理 “ 简 单 看 合 ” 的 索引 框架 TQOindex 和 和 处理“ 协同 看 合 ” 的 索引 框架 
TDindex, 前 者 是 平衡 树 索引 ,后 者 是 不 具 平 衡 性 特征 的 一 般 树 索引 ,可 参见 本 章 所 附 相 关 
文献 。 本 章 主要 研究 TDindex 的 构建 与 应 用 。 

1. TDindex 构建 

对 LELOP(T), 记 工 的 首 结 点 为 max(L), 尾 结 点 为 min(L)。 

(1) 定义 Tmax 为 LOP(T) 中 所 有 “max(L)” 的 集合 ,通过 算法 10-1, 在 Tmax 上 进行 线 
序 划分 ,得 到 的 LOB 序列 记 为 LOP(Tmax)=={L;(Tmax)} (li|LOP(T)1)。 

(2) 定义 Tmin 为 LOP(CP 中 所 有 “min(L) ”的 集合 ,通过 算法 10-1, 在 Tmin 上 进行 线 
序 划 分 ,得 到 的 LOB 序列 记 为 LOP(Tmin)={L,(Tmim)}(1r1LOP(T)|)。 

(3) 定义 max(LOP) 为 LOP 中 各 个 LOB 的 最 大 元 组 成 的 集合 。 

不 至 于 混淆, 可 以 将 Li(Tmax) 和 上 (Tmin) 看 作 “ 端 点 LOB”, 而 将 定义 10-1 中 的 线 序 
分 枝 看 作 “ 数 据 LOB”。 

【定义 10-5】 (TDindex 结构 )H(T) 上 TDindex 是 满足 下 述 条 件 要 求 的 四 层 树 形 结构 

(1) 叶 结 点 层 : 即 数据 LOB 层 ,本 层 结 点 为 L(Tmin(L; (Tmax))) 对 应 元 素 LOB。 

(2) 最 小 端 LOB 点 层 : 即 LOP(Tmin) 层 ,本 层 结 点 为 L; (Tmin)。 

LOP(Tmin) = {Li(Tmim)} (1 <i<| LOP(Tmin) |) 
本 层 中 每 一 结 点 ns 的 子 结 点 为 叶 结 点 层 的 相应 结 点 ,该 结 点 的 最 小 元 包含 在 ns 中 。 
(3) 最 大 端点 LOB 层 : 即 LOP(Tmax) 层 ,本 层 结 点 为 L;(Tmax) 
LOP(T'max) = {Li(Tmax)}(l <i<| LOPCPmax) |) 
本 层 中 每 一 结 点 ns 的 子 结 点 为 最 小 端点 LOB 层 中 满足 条 件 的 结 点 ns: 如 果 ns 包含 有 叶 
结 点 层 的 结 点 nm 中 的 最 小 元 ,而 作为 数据 LOB 的 结 点 mm 的 最 大 端点 位 于 ns 中 。 

(4) 根 结 点 层 : 即 max(LOP(Tmax)) 层 ,其 中 唯一 根 结 点 由 max(LOP(Tmax)) 中 的 元 
素 组 成 。 

TDindex 时 态 索 引 结构 如 图 10-2 所 示 。 
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图 10-2 TDindex 时 态 索 引 结 构 
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2. TDindex 示例 

【 例 10-2〗 给 定 卫 上 LOP(Cm 一 < ,La ,Ls,L4,Ls >, 如 图 10-3 所 示 , 其 中 

Li =<[059) ,L087, L037) L067 L161 5) L114 C18) 23) C033) 三 。 
Ls = [Ly [L727 L254) >. 

天 < L983 [3 [3046 L455 SS 

L, =<[4,9) [4;8), [4,7); L567 > 

Ls = <[5;9); L658), L657) > 


2 旋 Lx Es 


(0,9) (4.9) 









(0,8) (1,8) (2.8) (3,8) (4.8) (5,8) (6.8) 


9 
(07) | (7) C7 (4,7) (6,7) 


(0.6) (3.6) (4.6) | (5,6) 
(4,5) 


(2,4) 





(13) (23) (33) 


10-3 LOP(T) 


Max(L1)= [0,9) ,Max(L:) = [1,8) ,Max(L:) = [2,8),Max(L, = [4,9),) 
Max(Ls) = [5,8)， 
Tmax= < Max(Li), Max(L,), Max(Ls3), Max(L,),Max(Ls)> 
= <[0,9),[1,8),[2,8),[4,9),[5,8) >; 
对 Tmax 由 DRFT 算法 可 得 LOP(Tmax) 二 <Li(Tmax), L,(Tmax)>, 其 中 
Li(Tmax) = {Max(Li), Max(L,), Max(L,)} 
= <[0,9),[1,8),[2,8), [5,8) >; 
L:(Tmax) = < Max(L,) > = <[4,9) >; 
max(LOP(Tmax)) = <max(Li(Tmax)),.max(L; (Tmax)) > 
一 <[0,9),[4,9) >。 
LOP(Tmax) 如 图 10-4 所 示 , 其 中 实 线 表示 对 Tmax 进行 DRFT 算法 。 
类 似 , 由 图 10-3 可 知 ,Min(L) 王 [3,3),Min(L:) 王 [2,4),Min(Ls:) 一 [4,5),Min(L ) 一 
[5,6),Min(Ls) 一 [6,7). 
Tmin= < Min(L )，Min(L: )，Min(L3: ) ,Min(L) ,Min(CLs ) > 
二) L245 L415) L367), L657) > 
对 Tmin 由 DRFT 算法 可 得 LOP(Tmin) 二 <Li(Tmin), Ls (Tmin)>, 其 中 


L Ls L Ls 








Li(Tmax) (4.9) LTmax) 
和 
1 
(8) Co (3,8) (49) (5,8) (6.3) 

人 和 昌 
1 1 1 1 1 
| (0,7) | (1.7) (2,7) | | 47 (6,7) 
9 本 1 人 
1 1 1 1 
1 (06) (6) 1 1 (3.6) (46) 1 (5,6) 
人 ! 

1 1 1 

1 405) | 1 (4,5) 

9 1 时 

1 1 

1 (1,4) 1 (2,4) 

+. 4 

1 

1(13) (23)  (G3.3) 

-ee---。 


10-4 LOP(Tmax) 


Li (Tmin) = {Min(L1), Min(Lz) } = <[3,3),[2,4) >; 
Lz (Tmin) = < Min(L:s) > = <[4,5) >; 
Ls(Tmin) = < Min(Ls) > = <[5,6) >; 
Li(Tmin) = <Min(Ls) > = <[6,7) >。 
此 时 ,相应 TDindex(P) 索 引 实例 中 的 结 点 构成 如 下 。 
(1) 叶 结 点 层 : 由 5 个 数据 LOB 构成 5 个 结 点 ,分 别 为 Li (TT 、Ls (TD)、Ls(T)、L (TT)、 
Eo) 
(2) 最 小 端点 层 : 由 LTmin) Ls (Tmin) 、Ls (Tmin) 和 上 , (Tmin) 构 成 该 层 的 4 个 结 
点 ,其 中 工 (Tmin) 的 子 结 点 为 Li (和 工 ;( 帮 ;LL (Tmin) ,Ls (Tmin) 和 工 ,Tmin) 分 别 以 
La(T) Le 和 ZLs(CP) 为 各 自 的 子 结 点 。 
(3) 最 大 端点 层 : Li CPmax) 和 L: (Tmax) 构 成 本 层 的 两 个 结 点 。 由 于 Li (Tmin)、 
Ls (Tmin) 和 工 ;(Tmin) 的 子 结 点 LCT) 、Ls(T) La GD 和 (CD 的 最 大 元 均 在 Li Cnmax) , 因 
此 Li(Tmax) 有 子 结 点 Li(Tmin) LTmin) 和 工 ;(Tmin); 同时 ,LiCPmin) 子 结 点 LsCP) 的 
最 大 元 在 LCTmax) 中 , 即 有 工 ;(Tmax) 以 L,(Tmin) 为 子 结 点 。 
由 此 得 到 相应 的 时 态 数据 索引 TDindexCP) 如 图 10-5 所 示 , 其 中 图 10-5(a) 表 示 实 际 
数据 情形 ,而 图 10-5(b) 表 示 带 入 相应 符号 后 的 情形 。 


10.1.3 TDindex 数据 查询 


时 态 查 询 是 基于 时 间 约 束 的 查询 ,相关 时 间 约 束 的 谓词 形式 通常 采用 Allen 的 13 种 时 
态 关 系 。 为 了 描述 简便 清晰 ,本 章 时 态 查 询 中 时 间 约 束 采 用 “包含 约束 ”方式 : 设 Q 是 给 定 
的 时 态 查 询 , TData 表示 存储 在 数据 库 中 相应 的 时 态 数据 ,需要 查询 所 有 满足 VT(Q) 导 
VT(TData) 的 时 态 数据 ,其 中 VT(. ) 表 示 相 关 时 态 数 据 的 有 效 时 间 期 间 。 

“包含 "查询 是 一 种 基本 的 时 态 查 询 , 其 他 如 “相交 ”“ 相 离 ” 等 查询 都 可 以 通过 适当 方式 
转换 为 “包含 查询。 
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1 层 根 结 点 
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图 10-5 TDindex 索引 结构 实例 


建立 索引 的 目的 是 有 效 实现 数据 的 查询 ,为 建立 基于 TDindex 的 数据 查询 算法 ,需要 
引入 下 述 概念 与 符号 。 

【定义 10-6】 ( 线 序 分 枝 中 点 ) 对 于 线 序 分 枝 LOB=< Pi ,P: ,…,P。>,，max(LOB) 一 
Pi ,min(LOB) 王 已 , ,其 二 分 中 点 记 为 mid(LOB)== Pwia, 其 中 mid 二 (max 十 min)/2 二 (1 十 
m)/2, 不 能 整除 时 取 其 整数 下 确 界 。 在 不 至 于 混淆 时 ,将 不 区 分 标号 mid、max、min 和 时 间 
期 间 mid,max(LOB) ,min(LOB) ,VPEL;,P 在 L; 的 位 置 标号 & 记 为 locs(L;)。 

1. LOB 一 分 查询 

设 有 查询 Q 二 [VTs,VTe) ,对 于 包含 查询 ,可 以 建立 下 述 基 于 LOB 的 二 分 查询 算法 。 

【算法 10-2】 (二 分 查询 算法 ) 二 分 查询 算法 执行 步骤 如 下 。 

(1) 在 [locss (LOB) ,locsn(LOB)] 执 行 二 分 查找 ,计算 locwia (LOB)。locwia (LOB) 是 相 
应 二 分 中 点 标号 。 

(2) 若 QCmid(LOB) ,将 <1ocwsx (Li)，… ,locma (Lio)> 放 入 结果 集 。 

此 时 ,如 果 当 locss (Li ) 关 locwin (La ) 沪 locmsx (La) 二 locwia (Ln) 十 1 ,执行 步骤 (1)。 

否则 ,执行 步骤 (3) 。 








(3) 若 QSmidCLa) 

此 时 ,如 果 当 locmss (La) 了 关 locmin (Lx ) 过 locnmin (Ln) 二 locma (La) 一 1, 执 行 步 骤 (1)。 
否则 ,执行 步骤 (4) 。 

(4) 输出 结果 集 。 

说 明 : 上 述 算法 也 适用 于 相交 查询 情形 。 

基于 LOB 二 分 查找 算法 过 程 如 图 10-6 所 示 。 


都 是 查询 结果 max(Z)=mid(Z)+1 











max(Z) mid(Z) min(Z) 
(a) QSmid(LOB) 


min(L)=mid(Z)-1 都 是 非 查 询 结 果 





max(Z) mid(Z) min(Z) 
(bjQemid(LOB) 


图 10-6 基于 LOB 二 分 查询 过 程 


2. 数据 查询 

对 于 TDindex 而 言 ,查询 过 程 中 所 需要 的 数据 都 按照 线 序 分 枝 存储 在 叶 结 点 中 , 非 叶 
结 点 层 只 具有 查询 路 径 的 导航 作用 。 

【算法 10-3】 (TDindex 数据 查询 算法 ) 设 Q 和 Qr 分 别 为 查询 要 求 和 查询 结果 集 ， 
Lroot 是 根 结 点 中 所 有 元 素 集合 。 基 于 TDindex 数据 查询 步骤 如 下 。 

(1) 对 Gi ELroot(1 志 km) ,车 Q 门 Gi = 二 名 ,Gi 对 应 L CPPmax) 中 所 有 元 素 都 与 Q 不 
交 。 由 于 Li (Tmax) 中 元 素 都 是 相应 LOB((T) 的 最 大 元 ,此 时 Ge 对 应 子 树 的 所 有 叶 结 点 都 
不 是 查询 结构 。 否 则 ,将 Gs 进行 标识 。 取 Lroot 二 Lroot\ {Gi) ,继续 上 述 过 程 直至 根 结 点 
中 最 后 元 素 。 

对 于 已 标识 Ce ,进入 LOP(Tmax) 层 所 对 应 的 子 结 点 Li(Tmax) 结 点 。 

(2) 对 N;ELi(Tmax), 若 QMN; 二 如 ,由 于 N; 是 对 应 LOB( 丰 中 的 最 大 元 ,此 时 Ni 对 应 
子 树 的 叶 结 点 都 不 是 查询 结果 。 否 则 ,对 N; 进行 标识 。 取 Li (Tmax) 二 Li (Tmax)\{S;) ,继续 
上 述 过 程 直 至 Li (Tmax) 中 无 元 素 。 

对 于 已 经 标识 的 Ni 进入 对 应 的 子 结 点 L (Tmin)。 

(3) 对 Mj; EL(Tmin), 若 QMj, 则 Mj 对 应 LOB(T) 中 的 所 有 元 素 都 是 查询 结果 ,将 
此 LOB(T) 放 入 Qr。 否则 ,对 Mi 进行 标识 。 取 L(Tmin) 二 L(Tmin)\{M;) ,继续 上 述 过 程 
直至 L(Tmin) 中 无 元 素 。 

对 于 已 经 标识 的 N; 进入 L(Tmin) 对 应 的 子 结 点 LOB(T)。 设 如 此 的 集合 为 LOP。。 

(4) 对 LOB(T) ELOP。 ,调用 算法 10-2 进行 基于 Q 的 查找 ,将 所 得 结果 放 入 Q.。 如 此 
直至 LOP。 中 无 元 素 。 

(5) 输出 所 得 结果 集合 Q.。 
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由 上 述 算法 实际 可 知 ,TDindex 将 时 间 期 间 集合 上 的 查询 转换 到 LOP(T) 之 上 ,进而 再 
转换 进 线 序 分 枝 LOB(T) 之 中 。 此 时 对 于 查询 要 求 Q 来 说 ,基于 数据 查询 的 基本 思想 可 以 
表述 为 : 车 Q 与 max LOB(T) 不 交 , 则 LOB(T) 中 所 有 元 素 都 不 是 查询 结果 ; 如 果 Q 被 min 
LOB( 耻 包含 , 则 LOB(T) 中 所 有 元 素 都 是 查询 结果 ; 否则 ,就 实行 二 分 查找 。 

显然 ,上 述 查 询 算法 的 时 间 复 杂 度 主要 取决 于 给 定 线 序 划 分 中 线 序 分 枝 的 个 数 。 由 于 
根据 下 右 优 先 得 到 的 线 序 划分 具有 “最 小 性 ”, 因此 算法 10-3 应 该 具有 较为 理想 的 查询 


3. 查询 实例 
【 例 10-3】〗 对 于 例 10-2 所 建立 的 TDindexCT) ,查询 包含 Q,=[1,2) 的 所 有 时 间 
期 间 。 


(1) 进入 根 结 点 ， 

Qi =[1,2) 三 max(CLiCPmax)) 一 [0,9) ,标识 为 Ci 。 

因为 Qi=[1,2) 门 max(CLzCPmax) 一 [4,9) 为 空 集 ,所 以 L; (Tmax)) 对 应 子 树 的 叶 结 
点 都 不 是 查询 结果 ,需要 排除 。 

进入 LOPCPmax) 层 中 Gi 对 应 的 结 点 Li (Tmax)。 

(2) 对 于 结 点 Li(Tinax)=< [0,9), [158),[2;8),[5;8)>; 

因为 [1,8) 站 Q 二 [1,8) 站 [1,2) 关 多 ,连同 步 又 (1) 中 [0,9) ,标识 为 N 一 人 L0,9),[1,8)}， 
[2,8) MaQ=[2,8) 站 [1,2) 二 名; 所 以 作为 最 大 元 ,[2,8) 对 应 子 树 的 叶 结 点 L3(T) 中 不 存 
在 查询 结果 。 

类 似 ,[5,8) 对 应 子 树 的 叶 结 点 L, (T) 中 不 存在 查询 结果 。 

此 时 ,查询 路 径 只 需要 沿 着 [0,9) 和 [1,8) 继 续 向 下 行进 。 

(3) 由 N 进入 到 LOP(Tmin) 层 的 结 点 {[3,3),[2.4))。 

由 于 [3,3) 和 [2,4) 都 不 包含 Q, = 二 [1,2) ,将 其 标识 为 M 一 {[3,3),[2,4)) 。 

(4) 对 于 [3,3) 和 [2,4) 对 应 的 Li(T) 和 上 (分别 调 用 算法 10-2 进行 处 理 。 

DD 在 Ly= [090% [Oe [07s [06s Lis6) Li LiyaDs Llyays [2y3% 
[3,3)> 中 获得 中 点 mid=[1,6), Q = 二 [1,2)S[1,6), 将 <[0,9), [0,8), [0,7), [0,6), [1,6) > 
放 人 结果 集 Qr。 

@ 在 < [1,5), [1,4), [1,3), [2,3), [3,3)> 中 获得 mid=[1,3),Q=[1,2)SS[1,3)， 
将 < [1,5), [1,4), [1,3) > 放 入 结果 集 Qr。 

@ 在 < [2,3), [3,3)> 中 获得 mid 二 [2,3), Q 二 [1,2) 先 [2,3) ,排除 < [2,3), [3,3)>。 

因此 ,得 到 关于 Li 的 查询 结果 是 Li 片段 : 

py([is d= 00 0 E07 LO Els Els: Elsays Eh, WS 

同 理 , 对 L;(T) 二 < [1,8),[1,7),[2,7).[2,4) > 使 用 二 分 查找 ,得 到 相应 查询 结果 为 
L; 片段 : 

TEL 

最 终 得 到 所 需 的 查询 结构 为 : Lpi([1,3)) 和 Lp ([1,7))。 

查询 过 程 如 图 10-7 所 示 ,其 中 灰色 框 表示 实际 查询 路 径 , 而 斜纹 框 表示 包含 查询 结果 
的 叶 结 点 线 序 分 枝 。 
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10-7 TDindex 数据 查询 过 程 


10.1.4 TDindex 增 量 式 更 新 


更 新 操作 主要 为 插入 操作 和 删除 操作 ,以 下 对 TDindex 的 增 量 式 插 入 更 新 及 删除 更 新 
进行 介绍 。 

【定义 10-7】 (前 驱 和 后 接 ) 设 seg(LOB) 为 在 VTs-VTe 平 面 上 由 max(LOB) 到 min 
(LOB) 遍 历 LOB 的 轨迹 线段 。 对 平面 上 任意 点 w , 若 存在 w ,满足 weELoAVTs(Cuo ) 一 
VTs(vwo)AVTe(lw)= 二 min{v|VTe(w) 三 VTe(ww)), 则 称 wx 为 vo 在 L。 上 的 直接 前 驱 
Pre(w); 车 存在 wo ,满足 wo ELo。AVTe(wo)== VTe(vw)AVTe(wo)= 二 min{w|VTs(vw) 牵 
VTs(w)), 则 称 wo 为 w 在 L。 上 的 直接 后 继 Suc(wo)。 

1. 插入 更 新 

【算法 10-4】 (TDindex 插入 更 新 算法 ) 设 L。E€ LOP,Lo==< weyvi1 svVis Vii， 
visU ssvn >, 待 插入 元 素 wo。 

(1) 车 LOPSORUGw)VLOPSOLD(w), 则 构建 一 个 新 的 LOB= {wo)。 

(2) 若 wwEseg(Lo),Lo=Lo 门 {wo})。 

(3) 若 3LoELOPA (VT(u Smin(Lo) V max(L EVT(u0)), Lo=Lof) {uo}。 

(4) 车 3jPre(wo)ELo 人 Pre(wo) 二 vi; 信 3Suc(wo)ELo 人 Suc(w) 二 vj;, 则 构建 新 LOB= 
<uyuiyuoyu yun >, 然 后 将 < viti，… ,vj-1> 作 为 新 的 插入 元 素 集 合 , 返 回 步骤 (1) ,如 
图 10-8(a) 所 示 。 

(5) 车 Pre(wuo) EL 人 Pre(w)==vi, 若 Lo 门 RU(w)== 如 时 ,构建 新 LOB=< wv,…， 
visUo svi 十 1 ，… ,vm > 如 图 10-8(b) 所 示 ; 否则 ,新 增 LOB 二 < ww,… ,vi,uo >, 剩 余 片 段 Lo 门 
RUCe ) 一 < vit1，… ,vn > 作为 新 插入 元 素 集合 ,返回 步骤 (1) ,如 图 10-8(c) 所 示 。 

(6) 车 了 SucGw)ELoASuclw)==vj ,新 增 LOB=< ww,… ,vm > 片段 < vy,… ,v1> 
作为 新 插入 元 素 集合 ,如 图 10-8(d) 所 示 。 

(7) 车 PreCxuo)ELoA Suc(w)ELo: 若 RU(uo) 门 Lo 二 如 ,构建 新 LOB, 如 图 10-8(e) 
所 示 ; 否则 ,构建 新 LOB 二 < wo ,oa :um >,< 芭 ,… ,vi > 作为 新 插入 元 素 集合 ,返回 步 又 
(1) ,如 图 10-8( 人 所 示 。 
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图 10-8 LOB 插入 更 新 
2. 删除 更 新 
【算法 10-5】 (TDindex 删除 更 新 算法 ) 设 需要 删除 点 为 vo ,uo 、wo 分 别 为 vo 在 LOB 
中 直接 前 驱 和 直接 后 继 。 对 LOP 的 删除 更 新 ,包括 以 下 3 种 情形 。 
(1) (VTs(w)=VTs(w)=VTs(wo)) V (VTe(u)=VTe(v)=VTe(w,)) 
此 时 ,可 直接 删除 w ,然后 将 we 和 wo 进行 线 序 分 枝 拼接 ,如 图 10-9 所 示 。 


U0 
起 i Lon 
删除 更 新 后 
wo 


10-9 删除 更 新 (1) 





(2) (VTs(uw) 委 VTs(x)) A(VTelwo)VTe(vo)), 设 yo=[VTs(uo), VTe(wo)) 
@ 若 yoLiori ,对 vo 进行 删除 ,然后 通过 y 对 wu。 和 wo 进行 线 序 分 枝 拼 接 ,Lao+l 不 
变 , 如 图 10-10 所 示 。 











图 10-10 ”删除 更 新 Case(2) 


@ 若 mwELaori, 对 mw 进行 删除 ,然后 通过 yo 将 we 和 wo 进行 线 序 分 枝 拼接 构建 新 的 
LOB, 同 时 在 La+: 中 调用 TDindex 删除 更 新 算法 对 yo 进行 删除 ,如 图 10-11 所 示 。 
(3) (VTs(w)= VTs(vo))A(VTe(wo)VTe(w)), 设 zo=[VTs(uo), VTe(wo)) 








图 10-11 删除 更 新 (3) 


@ 若 zxo 红 Lo-i ,对 ww 进行 删除 ,然后 通过 zo 对 wu。 和 wo 进行 线 序 分 枝 拼 接 。 
如 图 10-12 所 示 , 在 L;。 删 除 vw, 然后 通过 x。 对 we 和 wo。 进行 线 序 分 枝 拼接 构建 新 的 
LOB, 而 Lo 不 变 。 


删除 更 新 后 








10-12 ”删除 更 新 (4) 


@ 车 zoELn-1, 对 vo 进行 删除 ,然后 通过 w 对 u。 和 wo 进行 线 序 分 枝 拼接 构成 新 的 
LOB,Lo+i 不 变 。 

如 图 10-13 所 示 ,在 La 删除 vw 二 [3,7) ,此 时 xELo- ,删除 w 后 ,通过 wo 对 zx 和 ?ao 
进行 线 序 分 枝 拼接 构建 新 的 LOB,Lao-: 不 变 。 








10-13 ”删除 更 新 (5) 
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10.2 ”时 态 XML 数据 索引 


作为 一 种 数据 结构 ,时 态 XML 数据 需要 进行 以 下 3 个 方面 的 描述 。 

(1) 语义 信息 : 即 标签 语义 ,其 表现 形式 为 标签 路 径 , 不 同 结构 路 径 可 对 应 相同 的 标签 
路 径 。 

(2) 时 间 信 息 : 即时 间 标 签 ,通常 为 时 间 期 间 (period) 。 

(3) 结构 信息 : 父 / 子 关系 及 衍生 的 祖先 /子孙 关系 ,其 表现 形式 是 结构 路 径 ; 在 时 态 
XML 中 ,结构 与 时 间 信 息 相互 关联 , 即 一 个 结 点 的 时 间 信 息 需 要 受到 其 结构 信息 的 制约 。 
例如 , 父 结 点 的 时 间 期 间 需 要 包含 子 结 点 的 时 间 期 间 , 右 兄弟 结 点 时 间 期 间 始 点 不 能 小 于 其 
左 兄弟 结 点 时 间 始 点 。 

XML 数据 结构 信息 存储 和 查询 比较 复杂 ,是 各 类 相关 索引 结构 讨论 的 重点 。 对 于 时 
态 XML 数据 索引 而 言 ,还 需要 考虑 结构 信息 与 时 间 信 息 的 整合 处 理 。 本 节 讨 论 一 类 时 态 
XML 数据 结构 TX-tree, 其 基本 特征 是 通过 TDindex 索引 时 间 数 据 , 通 过 广义 深度 优先 编 
码 GDFe 实现 结构 信息 的 存储 与 查询 。 


10.2.1 GDFc 编码 


通常 将 XML 建 模 为 具 根 分 层 图 ,其 根 结 点 为 虚 结 点 ,代表 数据 操作 入 口 ,除根 结 点 外 
的 非 叶 结 点 代表 元 素 或 属性 , 叶 结 点 代表 元 素 或 属性 值 。 分 层 图 中 的 边 包 括 结构 边 和 引用 
边 ,结构 边 表明 结 点 之 间 父 / 子 结构 关系 ,引用 边 表明 结 点 之 间 值 的 引用 关系 , 结 点 时 间 标 签 
通常 作为 相应 边 标记 。 

1. 广义 深度 优先 编码 GDFe 

【定义 10-8】 (广义 深度 优先 编码 ) 为 时 态 XML 有 根 分 层 图 T。 中 的 每 个 结 点 n。 配置 
唯一 广义 深度 优先 编码 : GDFc(no) 二 < GDFc(no) ,gap(no) ,LevNo(no)>。 

(1) GDFe(no): 按照 广义 深度 优先 遍历 顺序 获得 的 不 连续 严格 单调 增 编码 。 

(2) gap(no): 与 no 更 新 频率 相关 的 编码 间隔 。 

(3) LevNo(no): no 所 在 层 数 。 

2. GDFc 基本 性 质 

【定理 10-4】 (GDFc 基本 性 质 ) 定 义 10-8 中 的 GDFc 编码 具有 下 述 基本 性 质 。 

(1) GDFcGza) 二 GDFc(m) 人 LevelNo(mo) 二 LevelNo(m) 十 1.m 是 no 的 子 结 点 。 

(2) GDFc(no) +gap(no) GDFc(m) +gap(m) MLevelNo(no)=LevelNo(m) 十 1， 
m 是 no 的 子 结 点 。 

(3) gap(zo) 过 gap(Oma ) 十 gap(zz) 十 … 十 gap(746) ,no 是 4,n2… ,ns 的 父 结 点 。 

(4) GDFc(m) +gap(m) 夺 GDFc(n,) A LevelNo(m,)=LevelNo(n,),n, 为 n, 右 兄 弟 





夭 总 。 
证 明 从 略 。 
【 例 10-4】 给 定 一 个 时 态 XML 实例 ,其 结构 与 相应 GDFc 编码 如 图 10-14 所 示 。 


province 


[5,now) [5, now) [0.15) 





Cr info 


[15,now) [0,15) 万 [2QnoWinoy 二 [lSnow) [0.15) 4, 4s 六 


nl 2 省 73 


四 


10-14 时 态 XML 有 根 分 层 图 和 结 点 GDFc 编码 示例 


10.2.2 时 态 XML 索引 TX-tree 


【定义 10-9】 (时 态 XML 索引 TX-tree)TX-tree 表示 为 如 下 的 三 元 组 。 
TX-tree(T,) = < SNodes(T,),TDindex(T,),Lnodes(T,)> 

(1) SNodes(T,) 二 {SNode)}: SNode 为 Tu 中 具有 相同 语义 标签 的 数据 结 点 即 语义 结 
点 。SNodes(T,) 中 语义 结 点 依 深度 优先 遍历 次 序 有 序 。 

(2) TDindex(T,) 二 {TDindex(VT(SNode))): TDindex(VT(SNode)) 是 对 于 每 个 语 
义 结 点 建立 的 基于 TDindex 索引 树 森 林 ,VT(SNode) 是 SNode 对 应 数据 的 有 效 时 间 期 间 
集合 。 

(3) Lnodes(T。): Tu 中 按 层 划分 的 所 有 结 点 GDFc 编码 , 即 GDFc 中 的 LevNo(no)。 

【 例 10-5】 对 例 10-4 中 的 数据 构建 TX-tree(T), 相 应 SNode、GDFc (SNode) 和 
TDindex(VT(SNode)) 如 表 10-1 所 示 , 图 中 时 间 期 间 的 下 标 代表 处 于 该 时 间 期 间 的 结 点 
GDFc, 分 层 GDFc 编码 列表 Lnodes(T,) 如 表 10-2 所 示 。 


表 10-1 SNode、GDFc(SNode) 和 TDindex(VT(SNode)) 


























Sid| SNode GDFc(SNode) TDindex(VT(SNode)) 
S | Country | {0} {<[0,nowjo >} 
Si | province | {1,55,165} {<[0,now]ss ,165,[5,now]l >} 
(0 1907524567 790 O08 T12129 | {<LoOvnow la LO lS la <5 nw ls [lss 
| 134,167,178,212,234} now J24.123.134 » [20, now Joo.212,234>} 
Ss | city {12,78,122,166} {<[0,now]rs ,[15,nowjies>y<[5,now]is,[15,now]iz>)} 
S, | leader | {23,56,89,133,177,199} 人 第 
now]s>} 








有 寻 态 数据 圭 引 扒 太 


高 级 数据 府 基 础 才 程 


Sid| SNode GDFc(SNode) TDindex(VT(SNode)) 

{<[L0, 20 J] , LO, 15]sss >, < [15, now Js,14» [20, 
now Ji00,222>} 

Si | Tel {35,68,102,202,224} {<[0,20]s0 ,[0,15]ss>,<[15,now]ss ,[20, now Jio2,224>} 
{< [0 .20Jm5 [0 15 1m > < LIS mow jure [20, 





S | info {34,67,100,144,188,200,222} 






































S | add {101,145,189,201,223} 
now]io1,223>} 
表 10-2 Lnodes(T,) 
level Lnodes(To) 
0 {0} 
1 {1,55,165} 
2 {2,12,78,112,122,166,199,234} 
3 {13,23,56,79,89,123,133,177,200,212,222} 
4 {24,34,57,67,90,100,134,144,178,188,201,202,223,224} 
5 {35,68,101,102,145,189} 


10.2.3 TX-tree 数据 查询 


TX-tree 基于 语义 划分 ,在 语义 结 点 层面 对 时 态 结 点 进行 TDindex 索引 构建 ,并 通过 
GDFc 编码 实现 了 “语义 时间” 与 “结构 ”的 整合 处 理 。 

实际 上 ,从 组 成 要 素来 看 ,时 态 XML 数据 查询 实际 上 需要 处 理 “ 语 义 “ 时 间 ” 与 “结构 ” 
三 方面 查询 要 求 。 

(1) 语义 查询 : 与 结构 划分 (结构 摘要 ) 和 时 态 划 分 相 比 ,XML 请 义 结 点 有 数量 较 少 和 
处 理 简洁 的 特性 ,因此 首先 处 理 语义 查询 可 以 过 滤 大 量 不 满足 查询 条 件 的 结 点 。TX-tree 
中 的 语义 查询 通过 在 语义 归并 结 点 中 进行 遍历 查询 实现 。 

(2) 时 间 查 询 : 需要 处 理 的 数据 量 和 复杂 程度 介 于 语义 查询 和 结构 查询 之 间 , 可 以 作 
为 对 语义 查询 结果 的 二 次 过 滤 。TX-tree 中 时 间 查 询 通 过 建立 相应 的 TDindex 索引 结构 

(3) 结构 查询 : 时 态 XML 数据 查询 的 关键 所 在 ,查询 操作 较为 复杂 ,但 通过 语义 和 时 
间 查 询 ,过 滤 掉 了 大 量 不 符合 查询 条 件 的 数据 ( 结 点 ) ,查询 的 数据 量 较 少 。TX-tree 中 结构 
查询 或 结构 匹配 通过 GDFc 编码 实现 。 

由 此 可 知 ,TX-tree 在 技术 层面 需要 着 重 处 理 其 中 的 时 间 查 询 部 件 和 结构 匹配 部 件 。 
在 时 间 查 询 处 理 方面 采用 TDindex 索引 框架 后 ,主要 课题 就 是 采用 GDFc 编码 完成 最 终 的 
结构 查询 。 因 此 ,需要 进一步 讨论 GDFc 的 相关 人 性质。 

1. 结 点 编码 定理 

假设 AuwE< TDindex[LVT(A。)]> 并 且 满 足 如 下 条 件 : 

Au = max{A | GDFc(A) < GDFc(B,o,), 
V Bo € BLTDindex(B,)],LevNo(Ao;) < LevNo(Bo)}, 

并 设 Co 一 min{c|GDFc(Aoi) 三 GDFc(C。6), LevNo(Co) 二 LevNo(A;,)}) 即 Au 为 编码 比 

Bo 小 的 最 大 编码 结 点 ,Co 为 As 同 层 右 兄 弟 结 点 。 此 时 ,可 以 得 到 下 述 定理 。 


【定理 10-5】 ( 结 点 编码 定理 ) 若 Au 不 存在 同 层 右 兄 弟 , 则 Co 为 无 穷 大 且 成 立 下 述 
结论 : 

@ 车 GDFc(Aoi) 二 GDFec(Bo) 二 GDFc(Co), 则 Boi 为 Au 子孙 结 点 。 

@ 若 GDFc(Au) 一 GDFc(Co) 一 GDFcCBu) , 则 Bu 非 Au 子 孙 结 点 。 

证 明 : @ 使 用 pathCBu) 表 示 路 径 欠 Bu , 设 Bu 不 是 Au 子孙 结 点 , 即 Ao; $path(Bok)。 
因为 GDFc(Aoi) 二 GDFc(Bo) 二 GDFc(C。6), path(Box) 位 于 Au 右 侧 及 Co 左 侧 ,与 Co 定义 
矛盾 。 所 以 四 成 立 。 

加 设 Bu 是 Au 子孙 结 点 ,由 深度 优先 遍历 可 知 ,Co 不 会 位 于 Ao: 和 Bos 之 间 , 与 题 设 矛 
盾 。 证 毕 。 

2. 结构 匹配 算法 

【算法 10-6】 (结构 匹配 算法 ) 设 有 集合 < A[VT(Ao)]>=< TDindex [VT(Ao)]> 和 
<BLVT(B,)]>=<TDindex[LVT(B。)]>, 逐 一 取 Bo E< B[VT(Bo)]>, 在 < A[VT(A6)]> 
匹配 Bu 的 祖先 结 点 , 设 结果 集 为 < Ao;// Bo;>。 结 构 匹 配 算法 执行 步骤 如 下 。 

(1) 取 BE<BLVT(B。)]>, 因 为 < A[VT(A。)]> 单 调 ,在 < ALVT(A,)]> 中 二 分 查找 
定理 10-5 中 的 Au; 如 果 不 存在 这 样 的 Au ,执行 步骤 (4) 。 

(2) Au 同 层 结 点 集 Lnodes(Aoi) 单 调 增 ,在 Lnodes(Au) 上 二 分 查找 定理 10-5 中 的 Co; 
如 果 这 样 的 点 不 存在 ,执行 (4) 。 

(3) 由 定理 10-5,Aoi 与 Bo 存在 祖 孙 结构 关系 ,< Aoi// Bu>=<AuVBu>m AuV Bu)。 

(4) <B[LVT(B,)]>=< B[VT(B。)]>\{Bo) ,车 < BLVT(B。)]> 关 如 ,返回 步骤 (1), 否 
则 ,执行 步骤 (5) 。 

(5) 返回 < AuV Bu>。 

3. TX-tree 查询 算法 

【算法 10-7】 (查询 算法 ) 假 设 时 态 XML 查询 : Q=A[VT(A)]// B[VT(B)]。TX-tree 
数据 查询 算法 执行 步骤 如 下 。 

(1) 对 TX-tree 中 的 SNodes 进行 语义 查询 ,得 到 结 点 列表 < A, > 和 < Bu >, 其 中 A= 
Ao,B=B,。 

(2) 通过 TDindex 查询 算法 分 别 对 < A。>、< B。 > 进行 时 态 查 询 , 查 询 结 果 为 < As> 和 
< BI>, 满 足 VTCADEVTCA)AVTCBODSEVTCB) , 且 < AI> 和 < BI> 按 GDFc 编码 排序 。 

(3) 通过 结构 匹配 算法 对 上 述 语 义 和 时 态 查询 结构 进行 结构 匹配 ,以 < B4> 为 参照 , 依 
次 将 < Bs> 中 的 Bu 与 < As> 中 的 每 个 A。 进行 结构 匹配 ,输出 存在 AuV Bo 结构 关系 的 结果 
集 <AuV Bu > 中 。 

【 例 10-6】〗】 设 有 查询 语句 Q= /city[0,now]Wleader[23,now]VTel, 对 例 10-4 中 的 
数据 进行 查询 。 

@ 对 “city” 进 行 语义 查询 ,查询 结果 记 为 Label(city) 二 {(12,city),(78,city), (122， 
city),(166 ,city) } 。 

接着 ,对 Label(city) 进 行 时 间 查 询 ,结果 记 为 Lop(cityL0,now)) 一 {(78,city) } 。 

@ 对 “leader” 进 行 先 语义 后 时 间 的 查询 ,结果 分 别 记 为 Label(leader) 王 {(23 ,leader) ， 
(56,leader), (89, leader), (133, leader), (177, leader), (199, leader))} 和 Lop(leader[23， 
now])= {(23, leader), (56, leader), (89, leader), (133, leader), (177, leader), (199, 
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leader) } 。 

接着 ,按照 结构 匹配 算法 对 Lop(city[0,now)) 和 Lop(leader[23,now]) 进 行 结构 连接 ， 
得 到 (78,city)// (89 ,leader) 。 

@ 对 “Tel” 进 行 语义 查询 ,结果 记 为 Label(Tel) 二 {(35,Tel),(68,Tel),(102,Tel)， 
(202, Tel) ,(224,Tel) } 。 

接着 ,按照 结构 匹配 算法 对 (78,city) // (89,leader) 和 Label(CTel) 进 行 结构 连接 ,得 到 
(78,city)// (89,leader)// (102, Tel)。 

然后 ,通过 GDFc 二 102 映射 数据 结 点 ID ,得 到 ID==17。 

最 终 查询 结果 为 < Tel ID="17", VT="[20,now]"> Ts </Tel >。 


10.2.4 TX-tree 数据 更 新 


TX-tree 的 更 新 包含 LOP 和 GDFc 更 新 ,其 中 LOP 更 新 通过 调用 TDindex 更 新 算法 
实现 ,而 GDFc 更 新 需要 对 新 增 结 点 进行 GDFc 编码 的 快速 配置 。 设 CList 为 TX-tree 的 
GDFc 集合 ,Au 为 新 插入 结 点 ,Ao 父 结 点 为 Fu ,通过 GDFC(F) 可 求 Fo 同 层 后 继 Bu 。 此 
时 ,需要 在 CList 中 确定 关于 Ao 满足 GDFc(A) 二 GDFc(A,) 二 GDFC(CA4 的 前 驱 A 和 
后 继 At o 

【算法 10-8】 (GDFc 更 新 算法 ) 设 sego 二 (GDFc(Fo), GDFc(Bo)], 阅 值 为 a(n) ,其 中 
7 一 |CList| ,NStart 和 NEnd 为 sego 的 起 始 和 终止 位 置 。GDFc 更 新 算法 执行 步骤 如 下 。 

(1) Mid 二 (NStart 十 NEnd)/2, 对 sego 执行 二 分 查找 直到 | sego | 三 a(n)。 

@ 如 果 LevNo(Fo) 和 LevNo(Mid), 即 At (GDFe(NStart) ,GDFc( Mid)], 

sego 一 (GDFc(Mid)，GDFcCNEnd)] ,继续 执行 步骤 (1); 否则 , 转 到 步骤 @ 。 

@ 如 果 LevelNo(Mid) 二 LevelNo(Fo。), 即 At 和 代 (GDFcC(Mid) ,GDFcCNEnd)],sego = 
(GDFe(NStart), GDFc(Mid)] 

继续 执行 步骤 (1) 。 

(2) 遍历 查找 seg 中 首 个 满足 LevNo(Co) 三 LevNo(F) 的 结 点 Cu,At 一 Cu 。 

(3) 由 CList 得 到 Ai+i 的 直接 前 驱 A , 即 可 得 出 GDFc(Ao). 

实验 表明 ,TX-tree 的 查询 性 能 优 于 现 有 的 相关 索引 技术 。 


10.3 移动 对 象 数据 索引 


基于 时 空 相 点 映射 的 路 网 移动 对 象 数据 索引 pm-tree 是 在 MON-Tree 框架 内 展开 讨论 
的 ,主要 思想 是 把 二 维 的 时 空 矩形 映射 为 带 参 数 的 一 维 时 空 相 点 ,然后 对 相应 相 点 集合 建立 
基于 拟 序 关 系 的 具有 时 空 信息 处 理 能 力 的 pm-tree 结构 ,最 后 结合 2DR* -tree 结构 建立 起 
具 路 网 移动 对 象 信息 处 理 能 力 的 数据 索引 技术 。 


10.3.1 数据 模型 与 数据 结构 


路 网 模型 .移动 对 象 时 空 矩形 到 时 空 相 点 映射 和 时 空 相 点 拟 序 结构 是 构建 pm-tree 的 
基础 ,需要 对 这 些 问题 先行 讨论 。 





1. 路 网 移动 对 象 数据 模型 

大 家 已 经 知道 ,经 典 路 网 移动 对 象 数据 模型 一 般 利用 二 维 折线 集合 表示 复杂 道路 网 络 结 
构 , 其 中 每 条 折线 表示 一 条 固定 的 道路 (路 线 ) ,每 条 道路 由 一 个 首尾 相 接 的 线段 序列 组 成 , 线 
段 两 端点 表示 各 条 道路 的 交叉 点 或 折线 的 转折 点 。 下 面 给 出 道路 与 线段 的 形式 化 定义 。 

1) 道路 和 位 置 点 距离 参数 

【定义 10-10】 (道路 或 路 段 ,road or line) 道 路 为 一 个 首尾 相连 的 线段 序列 : 

R= {<pospi>, <pips > prsspa >, < pesp, >} 
其 中 ,p;(0<i <n) 为 二 维 平面 线段 的 端点 ,po。 和 p, 分 别 为 道路 始点 和 终点 , 沿 po 到 p, 的 方向 
为 RR 的 方向 。 R 上 点 p; 的 位 置 用 p; 关于 po 的 沿 道路 RC 相对) 距离 参数 D; 一 D(R, p;) 表 示 。 

(2) 当 pi==po 时 ,D(R, pi)=0; 
(3) 当 pi 才 po 时 ,D(R, p;) 二 D(R, pi- 十 db- pi)，d(pi-1， pi) 是 pi-1 到 zp; 的 欧 
氏 距 离 (1<i 三 n)。 
<pi-ispi>(1<i 三 n) 称 为 R 中 由 pi;-1 到 户 的 一 条 路 段 。 
道路 RR 实例 如 图 10-15 所 示 。 
Po(D(R, Po)=0) / 


di=3 / 


PAD(R, Py)=D(R, Pi)Hd=6) 





d=2 PiD(R,P3)=D(R, Py)+ds=8) 
10-15 道路 R 和 距离 参数 


以 下 采用 第 8 章 中 讨论 的 面向 路 段 的 路 网 模型 ,也 就 是 说 ,路 网 为 二 元 组 RN 一 
(R,,N),R, 是 所 涉及 道路 的 路 段 集合 ,N 是 路 网 中 道路 交接 点 及 道路 始点 和 终点 集合 。 

2) 移动 对 象 时 空 矩 形 

【定义 10-11】 (移动 对 象 建 模 ) 移 动 对 象 MO 在 路 网 RN 上 运动 信息 表示 为 四 元 组 : 
M=(R;, D, v, 1)。 

(1) R; 是 MO 在 NR 中 的 道路 标识 。 

(2)DD 是 MO 在 R; 上 位 置 。 

(3) v 是 MO 速度 , 当 wv 三 0 时 表示 m 的 移动 方向 与 道路 R; 方向 相同 ,否则 相反 。 

(4) zt 是 MO 位 于 DD 位 置 上 的 时 刻 。 

移动 对 象 轨迹 建 模 : 移动 对 象 MO 在 道路 R: 上 运动 所 产生 的 运动 轨迹 可 表示 为 一 个 
四 元 组 序列 Tr 二 < Mo , Mh,… ,M6 > 来 表示 ,其 相 邻 两 个 结 点 M;_1 和 Mi; 组 成 一 个 路 段 ( 折 
线段 )seg(M;_1， Mi) ,其 始点 和 终点 空间 位 置 和 对 应 时 刻 构 成 的 序 对 分 别 记 为 M: 一 1(Cstar) 一 
(Cd-iy ti 和 MiCending) 一 (di 1;)。 

由 时 间 单 调 递增 性 ,总 有 z_1<ii 成 立 ; 同时 为 讨论 简便 ,假设 di;-1 二 di;, 当 di-1 记 d; 时 
仅 需 调换 d;_, 和 d; 的 标号 即 可 不 会 影响 相关 讨论 。 
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【定义 10-12】 〈 基 于 路 段 移动 对 象 建 模 ) 路 段 上 的 移动 对 象 可 以 建 模 为 一 个 时 空 矩 形 。 

(1) 时 空 数据 矩形 (Temporal-Spatial Data Rectangle,TSDR ) : 移动 对 象 MO 运行 的 路 
段 segCM;_， ，M;) 可 表示 为 一 个 时 空 数据 矩形 S; 二 (4d;_1,di; ti_1,ti) ,其 中 S; 相 邻 的 两 条 
边 分 别 与 直角 坐标 轴 S-axis 和 T-axis 平行 ,而 (di_1， ti-1) 和 (d;, i;) 分 别 为 S 左下 和 右上 
顶点 坐标 ,如 图 10-16 所 示 。 





T-axis (d, 1) 
区 
HF (di tn) 
1 上 和 S-axi 
ol 古 S-axis 


图 10-16 时空 矩形 TSDR 


为 了 叙述 方便 ,以 下 将 时 空 数据 矩形 简单 记 为 = (di ,do ; t,ts), 其 中 dds 人 < 。 

(2) 移动 对 象 数据 路 段 模型 : 设 移动 对 象 MO 在 道路 R 上 运动 轨迹 为 < Mo ,M ，……,M, >， 
由 于 每 个 M; 都 对 应 一 个 时 空 矩 形 ,因此 M 的 轨迹 可 表示 为 一 个 时 空 数据 矩形 TSDR 序列 
< Si,S: ,…,S, >, 其 中 S 一 (ddis ci) ,di-1 和 di 分别 是 MO 位 于 点 M;-1 和 M; 位 置 
时 的 距离 参数 ,6 和 问 分 别 是 MO 移动 到 M;-, 和 M; 的 时 刻 。(d;-1， di;) 可 以 看 作 是 MO 
从 位 置 M;_1 运 动 到 位 置 M; 过 程 中 的 空间 区 间 (Space Interval),(t;_1， i) 则 表示 其 对 应 的 
时 间 期 间 (Period) 。 

【 例 10-7】 设 有 移动 对 象 MO, ,MO,,…，MO;s 在 道路 RR 上 运动 产生 的 数据 及 其 对 应 
的 移动 对 象 数据 模型 如 表 10-3 所 示 。 


表 10-3 移动 对 象 数据 建 模 












































Moving Spatial Corresponding Temporal | Corresponding Temporal-spatial Data 
Object Location Space Interval Point Period Rectangle 

MO 0,3,8 (0,3),(3,8) 0,1,5 [0,1), [1,5) | (0, 3; 0, 1)(3, 8; 1,5) 
MO; 0,3,8 (0,3),(3,8) 2,4,7 [2,4), [4,7) | (0,3; 2,4)(3,8: 4,7) 
MO; 0,6 (0,6) 4,8 [4,8) (0,6; 4,8) 

MO, 3,6 (3,6) 4,8 [4,8) (3,6; 4,8) 

MO; 3,8 (3,8) 257 [2,7) (3,8; 2,7) 

MO 3,6,8 (3,6),(6,8) 2,5,6 [2,5), [5,6) | (3,6; 2,5)(6,8; 5,6) 
MO; 0,6,8 (0,6),(6,8) 1,4,6 [1,4), [4,6) | (0,6; 1,4)(6,8; 4,6) 
MO 6,8 (6,8) 0,3 [0,3) (6,8; 0,3) 

MO, 0,3 (0,3) 6,8 [6,8) (0,3; 6,8) 

MO 0,3,6 (0,3),(3,6) 2 E152Y5. L256% | 《93123565 256% 
MOu 6,3,0 (6,3),(3,0) 1,3,6 [1,3), [3,6) | (3,6; 1,3)(0,3; 3,6) 
MO 0,3,8 (0,3),(3,8) 5 多 [1,3), [3,7) | (0,3; 1,3)(3,8: 3,7) 
MO,s 3,6 (3,6) 5,7 5 (3,6; 5,7) 




















2. 时 空 相 点 分 析 
由 上 述 定义 可 得 ,移动 对 象 MO 在 道路 R 上 的 运动 轨迹 可 以 用 TSDR 的 序列 表示 , 因 
此 仅 需 对 TSDR 数据 进行 处 理 就 可 得 到 MO 的 运动 轨迹 信息 。 然 而 TSDR 作为 一 个 二 维 


时 空 矩 形 , 若 直接 对 其 进行 数据 操作 ,处 理 效率 相对 较 低 。 实 际 上 ,可 以 基于 TSDR 数据 的 
固有 特性 提出 运用 数学 映射 方法 把 二 维 的 TSDR 矩形 投影 成 带 参数 的 一 维 时空 相 点 ,从 而 
提高 移动 对 象 运动 信息 的 处 理 效率 。 
1) 时 空 相 点 映射 
【定义 10-13】 (时 空 相 点 映射 ) 时 空 相 点 映射 (phase points mapping) 定 义 如 下 。 
S= (didi; tist) > P= (<a,b>,di,ds ,t,ts) 
bd 和 
4 一 di XwV2 十 万 a 


ts—d;» ts td; 














b= dXV2+ 





V2 V2 
PP 为 时 空 数据 矩形 S 对 应 的 时 空 相 点 (Temporal-Spatial Phase Point,TSPP); <a, 5> 为 P 
的 时 空 相 点 坐标 ; di aa ds ,ts 为 P 的 时 空 判 定 参 数 。 
TSDR 与 相 点 P 的 映射 关系 如 图 10-17 所 示 。 


(ds, b) 

















S=(di,da; 11,1) 
P(<a.b>,.di,dy,t1, 1) 
Mapping between a TSDR 
(di, 11) and a phase point 
T-axish 
Phrase-axis 
S-axis 








图 10-17 TSDR 与 相 点 已 映射 关系 


对 于 时 空 相 点 P 的 时 空 相 点 <a ,> 可 看 作 相 应 相 平面 上 的 二 维 点 坐标 ,还 可 视 为 S-T 
平面 上 相应 TSDR 在 相 点 轴 (phrase-axis) 的 投影 线段 (a.5)。 由 于 时 空 相 点 坐标 <a,6 > 与 
TSDR 的 相 点 轴 投影 线段 (a,5) 是 一 一 对 应 的 ,以 下 将 不 加 区 别 地 “混淆 ”使 用 < a,5> 和 (a,b)。 
为 了 简化 计算 ,不 妨 把 < 分 母 归 一 化 而 都 放大 V2 倍 , 此 时 即 有 a= 十 di ,6 二 ts 十 ds。 

2) 面向 相 点 移动 对 象 建 模 

【定义 10-14】 (移动 对 象 时 空 相 点 模型 ,moving object model based on phase point) 移 
动 对 象 在 道路 R 上 的 运动 轨迹 可 表示 为 相 平面 上 的 一 个 时 空 相 点 TSPP 序列 >) = 
< PP,P, > 
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【 例 10-8】 对 于 例 10-7 中 移动 对 象 MO 在 道路 R 上 的 运动 轨迹 数据 ,其 对 应 时 空 相 


点 序列 >， 如 表 10-4 所 示 。 


表 10-4 ”移动 对 象 数据 相 点 表示 > 









































Moving Object | Temporal-spatial Data Rectangle Temporal-Spatial Phase Point 
MO (0, 3; 0, 1)(3, 8; 1,5) (<0,4>,0,3,0,1),(<4,13>,3,8,1,5) 
MO。 (0,3; 2,4)(3,8: 4,7) (<2,7>,0,3,2,4),(<7,15>,3,8,4,7) 
MO; (0,6; 4,8) (<4,14>,0,6, 4,8) 
MO, (3,6; 4,8) (<7,14>,3,6,4,8) 
MO; (3,8; 2,7) (<5,15>,3,8, 2,7) 
MO (3,6; 2,5)(6,8; 5,6) (<5,11>,3,6, 2,5), (<11,14>,6,8,5,6) 
MO， (0,6; 1,4)(6,8; 4,6) (<1,10>,0,6,1,4), (<10,14>,6,8, 4,6) 
MO (6,8; 0,3) (<6,11>,6,8,0,3) 
MO (0,3; 6,8) (<6,11>,0,3,6,8) 
MOw (0,3; 1,2)(3,6; 2,6) (<1,5>,0,3,1,2), (<5,12>,3,6,2,6) 
MO (3,6; 1,3)(0,3; 3,6) (<4,9>,3,6,1,3), (<3,9>,0,3,3,6) 
MO (0,3; 1,3)(3,8: 3,7) (<1,6>,0,3, 1,3), (<6,15>,3,8,3,7) 
MO (3,6; 5,7) (<8,13>,3,6,5,7) 





>》 在 相 平面 分 布 如 图 10-18 所 示 。 





4 (5, 15)(6, 15)(7, 15) 
(4,14) (7.14) (10,14)011, 14) 
(4, 13) (8, 13) 
(5. 12) 
(5,11) (6,11) 
(0.10) 
(3, 9) (4, 9) 
(2,7) 
(1,6) 
(1,5) 
(0.4) 
i 








图 10-18 ” 沁 在 相 平 面 分 布 


3) 时 空 矩形 与 相 点 区 间 关 系 

时 空 矩 形 与 相 点 区 间 具 有 下 述 关系 定理 。 

【定理 10-6】 (TSDR 相交 关系 的 相 点 坐标 判定 定理 ) 设 TSDR; 和 TSDR, 所 对 应 的 时 
空 相 点 分 别 为 P;(<ai, b>, da， dx, tastz) 和 Pj;(<aj, b>, dn，djz，tn， tz), 则 成 立 : 

TSDR:; | TSDR;j # Gai,6) MN (qs6)) #9G 

上 述 结论 的 证 明 由 相 点 映射 获得 ,其 正确 性 也 由 图 10-19 得 到 。 当 TSDR; TSDR, 天 包 
时 ,TSDR; 在 相 点 轴 上 的 投影 线段 (a;,b;) 与 TSDR; 在 相 点 轴 上 的 投影 线段 (o ,6b;) 必 然 相 
交 , 即 (ai,6) 站 (aj,6b;) 关 名 。 

需要 注意 ,上 述 论述 的 逆 命 题 是 不 成 立 的 。 
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图 10-19 TSDR; 与 TSDR; 相交 的 相 点 判定 


【定理 10-7】 (TSDR 不 相交 关系 的 相 点 坐标 判定 定理 ) 设 TSDR; 和 TSDR; 所 对 应 的 
时 空 相 点 分 别 为 Pi(<ai, b; >, da di, tavtz) 和 P;(<aj, b;>, dn， da tn, tn), 则 有 : 
(aisb) NN Caj sb) = BTSDR; NN TSDR; = 站 


证 明 : 如 图 10-20 所 示 , 当 (a;,6) 站 (aj,b;) 二 名 时 TSDR; 和 TSDR 的 可 能 分 布 。 此 


时 在 相 平 面 中 ,如 果 (ai;,0;) 门 (aj,b;) 二 如 , 则 所 有 投影 到 相 平 面 坐 标 为 (a;,b;) 的 TSDR; 与 10 


所 有 投影 到 相 平面 坐标 为 (a; ,6;) 的 TSDR; 没有 交集 , 则 TSDR; 站 TSDR,= 纪 。 
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10-20 TSDR, 与 TSDR, 不 相交 的 相 点 判定 


3. 时 空 相 点 数据 结构 

为 叙述 方便 ,在 不 引起 混淆 情况 下 把 相 点 Pi(<ai, b; >, da，, da ta, tz) 与 Pj(<aj, b>， 
da djz， tn， tj) 分 别 简 记 为 Pi 二 (ai;,6;) 和 Pj 二 (aj,b;), 并 将 相 点 区 间 (a; ,6b;) 和 (aj ,6b;) 的 
相交 关系 (a; ,5;) 门 (aj ,b;) 关 系 简 记 为 P; 门 Pi。 

如 前 所 述 ,移动 对 象 MO 在 路 网 中 的 运动 信息 可 以 表示 为 相 点 集合 > ) = {P,P,,…,P,,)。 
然后 在 > 上 建立 起 基于 拟 序 的 数据 结构 , 即 建立 的 线 序 划 分 LOP( > )。 


对 于 例 10-7 中 移动 对 象 数据 ,对 应 LOP( >) )= <Li,Le,*… ,Ln >: 

Li = <(0,4) >， 
L: = <(1,10)(1,6)(1,5) >， 
L;: = <(2,7) >， 
Ls = <(3,9)(4,9) >， 
Ls = <(4,14)(4,13)(5,12)(5,11)(6,11) >， 
Ls = <(5,15)(6,15)(7,15)(7,14)(8,13) >， 
L = <(10,14)(11,14) >。 

其 中 实行 DRFT 算法 的 过 程 如 图 10-21 所 示 。 





图 10-21 构建 LOP( >) ) 


10.3.2 移动 对 象 索引 pm-tree 


时 空 相 点 移动 对 象 数据 索引 pm-tree 的 结构 采用 与 MON-tree 类 似 的 两 层 索 引 架 构 。 
上 层 为 路 网 数据 处 理 模块 ,采用 2DR-tree 存储 路 网 中 的 道路 数据 ,每 个 叶 结 点 对 应 一 条 道 
路 。 下 层 为 道路 上 移动 对 象 数据 处 理 模块 ,由 一 组 记录 道路 R; 中 移动 对 象 运动 信息 的 
pm-tree 森林 组 成 。 

1. pm-tree 基本 概念 

【定义 10-15】 (移动 对 象 数据 索引 pm-tree)pm-tree 表示 为 如 下 四 元 组 : 

pm-tree= (2DR* (Road), HR; pm-tree forest (MO), HM) 

(1) 2DR" (Road) : 关于 路 网 中 道路 的 R" -tree 索引 。 

(2) Hk : 连接 2DR* (Road) 和 pm-tree forest(MO) 的 Hash 映射 。 

(3) pm-tree forest(MO) : 路 网 中 每 条 道路 中 的 移动 对 象 建立 一 个 pm-tree, 所 有 道路 
上 的 pm-tree 构成 一 个 pm-tree 森林 。 

(4) Hu: 连接 移动 对 象 与 其 最 新 线段 的 Hash 映射 。 

pm-tree 基本 架构 如 图 10-22 所 示 。 
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10-22 ”pm-tree 两 层 框架 
2. pm-tree 构建 
【定义 10-16】 (pm-tree 构建 )pm-tree 是 基于 TDindex 的 索引 结构 ,可 以 表示 为 如 下 
的 四 元 组 : 
pm-tree = (Root,LOP( >)max) ,LOP( > ) ,MO) 
(1) Root: 逻辑 层 , 表 示 数 据 操 作 的 人 口 。 
(2) LOP( > max): LOP( > ) 中 所 有 LOB 中 的 最 大 元 构成 的 线 序 划分 。 


(3) LOP( 2 ): >， 上 的 线 序 划 分 ,其 中 的 每 个 相 点 均 带 有 一 个 指向 O-level 对 象 的 
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(4) MO: 每 个 相 点 对 应 的 移动 对 象 构 成 ,存储 移动 对 象 具体 信息 。 章 
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pm-tree 的 基本 架构 如 图 10-23 所 示 。 





家 A 


LOP(Y) 


oooooogee boo 


图 10-23 pm-tree 基本 架构 
【 例 10-9】 例 10-7 的 移动 对 象 运动 数据 所 构建 的 pm-tree 如 图 10-24 所 示 。 



















































































































































































































<(0.4)> <(2 ,7 <(4.14) (4.13) (5.12)(5.10) (6.11)> <(10.14) (11,14> 
<(1,10) (1,6) (1,5> <(3,9) (4.9)> <(5,15) (6.15) (7.15) (7,14) (8,13)>| | 
0; Oi | oo | 0e | 0 O7 Os 
0 0; | 0 | Ow 
09 On os | O12 |0 | 0: 105 















































图 10-24 ”pm-tree 示例 


10.3.3 数据 操作 


下 面 分 别 讨论 基于 pm-tree 的 数据 查询 和 数据 更 新 两 种 操作 。 
1. 数据 查询 
我 们 已 经 知道 ,路 网 移动 对 象 的 查询 类 型 通常 一 般 分 为 窗口 查询 .时 间 片 查询 和 点 查 
询 。 窗 口 查询 是 指 给 定 一 个 时 间 间 隔 和 一 个 空间 矩形 区 域 , 查 找 在 该 时 间 间 隔 中 位 于 给 定 
空间 矩形 区 域 上 的 移动 对 象 。 时 间 片 查询 和 点 查询 均 为 窗口 查询 的 特殊 情况 ,以 下 主要 讨 
论 pm-tree 的 窗口 查询 。 此 时 ,需要 引入 下 述 基 本 定理 。 
1) TSDR 相交 充 要 条 件 
【定理 10-8〗 (TSDR 相交 关系 的 相 点 参数 判定 充 要 条 件 定理 ) 设 有 如 下 标记 
Si = (das, ta; dzs ta)—> P; = (<ai, pi>ycdiay di, ti, ti2), 
S; = (dis, tn; ds tz) > P; = (<aj, b;>, dn, di, tistis), 
则 SiN S; GZ eA dn dz Mtn tz) Mdn dj Ntn tz)。 


证 明 : 
(1) 必要 性 : S; 和 Si 相交 可 以 归结 为 如 图 10-25 所 示 的 4 种 情形 ,由 此 可 得 Si 门 Si 天 
Gdn dz<tn tz) MN (dad Ntn Sis), 
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(c) (d) 
10-25 S 和 Si 相交 与 相 点 参数 关系 


(2) 充分 性 : 假设 Si 门 S; 二 如 ,由 于 图 10-25 包括 了 S; 与 S; 相交 的 各 种 情形 , 即 当 
Si 站 Si= 世 时 ,图 10-25 中 各 种 情形 都 不 出 现 ,此 时 必 有 (di 二 da)V (tn>>ta)V (dadn)V 
(ta 之 tn);, 则 了 =-(Si 门 SB) 二 -Gdn 寺 dz Atn 志 tz)A (da 二 dn Ata 二 tn)), 则 原 命题 (di 三 
da Mtn<tz) A (da<djz Atn<t)>S;| 5; 得 证 。 

当 (da 一 diz)V (dn 二 dzw)V (tn 二 tz)V (tn 二 ts) 时,S; 与 S; 只 有 边 相 交 , 不 满足 窗口 
查询 的 定义 ,所 以 窗口 查询 的 相交 判断 定理 可 以 简化 为 : 

SiNS#¥G Ad dz Nin<ta) Mda<ds Nin<is) 

结合 上 述 定 理 和 前 述 TSDR 相交 关系 的 相 点 参数 判定 定理 可 得 基于 时 空 相 点 移动 对 
象 数据 索引 pm-tree 的 窗口 查询 算法 。 

2) pm-tree 窗口 查询 

【算法 10-9】 (pm-tree 窗口 查询 算法 ) 设 给 定 查询 窗口 Q 二 < ,xo; yy i,ts >, 查 
找 五 一 所 期 间 中 位 于 区 域 MBR 一 (zi zz; yyyz) 的 移动 对 象 。pmr-tree 窗口 查询 执行 步骤 
如 下 。 

(1) 在 pm-tree 的 路 网 信息 处 理 模块 中 对 2DR -tree 从 上 往 下 进行 搜索 ,查找 与 查询 
窗口 MBR 相交 的 叶子 结 点 Ni ,并 记录 Ni 所 对 应 的 道路 R;。 

(2) 对 于 找到 的 叶子 结 点 N; 通过 其 指向 对 象 的 指针 找到 道路 真实 表示 ,然后 把 道路 与 
查询 窗口 MBR 的 相交 区 域 转换 成 道路 中 移动 对 象 运动 信息 处 理 模 块 的 查询 窗口 集 W = 
{Cd Bs diwsti) ss das t15 dugstz))}o 
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(3) 由 映射 结构 Hk 查 得 道路 R; 所 对 应 的 pm-tree; 的 逻辑 入 口 ,在 pm-tree; 中 对 于 查 
询 窗 口 集 W 的 每 个 元 素 (dn ,hy; diz :ti ) 调 用 算法 10-10 进行 查询 并 返回 查询 结果 。 

3) pm-tree 窗口 查询 

【算法 10-10】 (pm-tree 窗口 查询 算法 ) 设 查询 窗口 为 ww 二 < du 当 ; ds ,ts >, 工 作 空 间 
集 为 ,查询 候选 结果 集 为 厂 , 查 询 结 果 集 为 sST ,初始 时 ,一 已 ,T 一 已,sT 一 已。pmrtree 窗 
口 查询 算法 执行 步骤 如 下 。 

(1) 把 w=< da 人; dz ,tz > 映射 为 时 空 相 点 gq 二 (<a,b>, di,ds ,ti,ts)。 

(2) 进入 pm-tree 的 max-level 层 , 从 左 至 右 进 行 扫描 。 

车 g 站 max(L;) 二 如 , 则 工 ;不 是 查询 结果 ,继续 扫描 L; 的 右 兄 弟 结 点 。 

@ 否则 ,L=LU {Li}) ,继续 扫描 工 ; 的 右 兄 弟 结 点 。 

(3) 进入 pm-tree 的 PPOP-level 层 对 工 中 的 工 ; 进行 处 理 ,车 Q 门 min(L;) 关 名 ,把 L; 
记 为 S(L;) ,转向 步骤 (4) ,否则 ,删除 L; 的 头 结 点 后 ,对 L; 执行 二 分 操作 ,找到 工 ; 中 最 后 一 
个 相 点 Pi 使 得 Pi 站 g 隆 多, 则 Pi 之 后 的 点 与 g 相交 均 为 如 ,把 L; 中 从 max(L;) 到 Pi 所 组 
成 的 点 集 记 为 S(L;); 若 无 这 样 相 点 ,转向 步骤 (5) 。 

(4) FT 一 PU{1SGLD) 一 LNA{1SCL)) 。 如 果 革 天 苛 ,转向 步骤 (3) ,否则 ,转向 步骤 (6) 。 

(5) ==TUmax(Li),L 二 L\{S(L;)}。 如 果 工 隆 儿 ,转向 步骤 (3) ,否则 ,转向 步骤 (6) 。 

(6) 判断 工 中 的 时 空 相 点 Pj; 二 (<aj， b>, dn，dj，tn， tz) 是 否 与 查询 窗口 w 相交 ， 
即 判 断 (dj 达 ds tn 过 ts) A (di 二 djs 人 4 过 to) 是 否 成 立 , 车 相交 则 把 P; 的 O-level 相应 移 
动 对 象 放 入 sT, 算 法 返回 。 

4) 窗口 查询 示例 

【 例 10-10】 设 给 定 pm-tree 的 时 空 查询 窗口 w= 二 <4,4; 5,5 >, 例 10-7 中 的 移动 对 象 
轨迹 数据 的 窗口 查询 过 程 如 下 。 

(1) 把 w==< 4,4; 5,5 > 映射 为 时 空 相 点 g= 二 (< 8,10 >,4,5; 4,5)。 

(2) 进入 pm-tree 中 max-level 层 ,从 左 至 右 进 行 扫描 ,把 满足 g 站 max(L;) 关 如 的 Ls、 
LLs、Le 和 上 ;加 入 到 工作 空间 集中 ,此 时 L={Ls, LL, Ls, Le}。 

(3) 进入 pm-tree 中 PPOP-level 层 对 L 中 工 ; ,依次 进行 判断 : 

L: 因为 QR 站 min(L)= 二 多 ,所 以 去 掉 max(L;) 对 Ls 剩 下 结 点 执行 二 分 查找 操作 ,查找 
不 到 相 点 Pi 门 q 取 如, 因此 转 步 骤 (5) ,把 相 点 (<1,10>0,6,1,4) 加 入 到 工 。 

LL: 因为 QN min(L4) 隆 名 ,所 以 转向 步骤 (4) ,把 整 条 L 加 入 到 醋 中 。 

Ls: 因为 Q 几 min(Ls) 关 如 ,所 以 转向 步骤 (4) ,把 整 条 Ls 加 入 到 中。 

Le: 因为 QR 站 min(Le) 隆 名 ,所 以 转向 步骤 (4) ,把 整 条 Le 加 入 到 卫 中 。 

(此 时 T={(1510).(3590) 35459) X414) 3 C4,13) ,C5 12),05,11) ,C611)(5515), 
(C615) 7,10) (7, 14 C83 13 }. 

卫 对 应 的 TSDR 集合 为 {(0,1; 6,4),(0,3; 3,6),(3,1; 6,3),(0,4; 6,8),(3,1; 8,5)， 
(3,2; 6,6),(3,2; 6,5),(6,0; 8,3),(0, 6; 3,8),(3,2; 8,7),(3,3; 8,7),(3,4; 8,7),(3， 
4; 6,8),(3,5; 6,7)} ,判断 TSDR 集合 中 的 S; 二 (dan, tn; dz， ts) 是 否 满足 (di 二 5 A 二 
5) 人 (4 二 ds 入 4 二 ta) ,把 满足 条 件 的 S; 的 O-level 相应 移动 对 象 集 sT 中 。 最 后 sT 二 {0;， 
Ob Os Or OO 


2. 数据 更 新 

数据 更 新 包括 数据 删除 和 插入 。 由 于 pm-tree 着 眼 于 索引 移动 对 象 在 路 网 中 的 历史 运 
动 信息 ,相应 更 新 主要 是 数据 插入 ,下 面 仅 讨论 基于 数据 插入 的 索引 更 新 。 

1) 数据 插入 两 种 基本 情形 

在 索引 结构 中 插入 结 点 主要 考虑 以 下 两 种 情形 。 

(1) 插入 已 有 移动 对 象 MO 的 运动 信息 (x; ,yi,t;)。 插 入 过 程 主要 分 为 以 下 5 个 步骤 。 

za 在 路 网 信息 处 理 模块 中 的 2DR" -tree 查找 (xz; ,y;) 所 在 的 道路 R; 并 把 二 维 坐 标 (z; ,yi) 
转换 为 R; 距离 参数 d;。 

@ 借助 Hs 找到 R; 所 对 应 的 pm-tree 入 口 并 进入 道路 中 移动 对 象 运动 信息 处 理 
模块 。 

@ 在 Hash 表 Hw 中 查找 移动 对 象 MO 上 一 个 运动 信息 (di1,ti1) ,把 (di_1,ti-1) 和 
(disti) 组 织 成 一 个 新 的 TSDR== (di ,ti1; disti)。 

@ 把 Hash 表 Hw 关于 对 象 MO 的 运动 信息 修改 为 (di ,1;)。 

@ 索引 TSDR==(di_1,ti-1; disti) 的 插入 位 置 并 插入 。 

(2) 插入 一 个 新 的 移动 对 象 MO 的 运动 信息 (zx,y,t)。 插 入 过 程 主要 分 为 以 下 5 个 
步骤 。 

Qa 在 路 网 信息 处 理 模块 中 的 2DR* -tree 查找 Cz,y) 所 在 的 道路 R; 并 把 二 维 坐标 (z,y) 转 
换 为 R; 距离 参数 d。 

@ 借助 Hk 找到 R; 所 对 应 的 pm-tree 入 口 并 进入 道路 中 移动 对 象 运动 信息 处 理 
模块 。 

@ 在 Hash 表 Hw 中 注册 对 象 MO ,并 把 对 象 MO 的 运动 信息 设 为 Cd,z) 。 

@ 把 (Cd ,0 组 织 成 一 个 新 的 TSDR 一 (dz d,1)。 

@@ 索引 TSDR=(d,t; d,t) 的 插入 位 置 并 插入 。 

由 于 两 种 插入 过 程 相似 ,下 面 给 出 第 一 种 情形 时 的 算法 。 

2) 插入 更 新 算法 

【算法 10-11】 (pm-tree 插入 更 新 算法 ) 假 设 需 要 将 移动 对 象 MO 产生 的 运动 信息 (x， 
yst) 加 入 到 索引 pm-tree 中 ,相关 算法 执行 步骤 如 下 。 

(1) 在 pm-tree 的 路 网 信息 处 理 模块 中 对 2DR* -tree 从 上 往 下 进行 搜索 ,查找 包含 二 
维 坐标 Cz,y) 的 叶子 结 点 Ni ,并 记录 N; 所 对 应 的 道路 R;; 通过 N; 指向 对 象 的 指针 找到 道 
路 真实 表示 ,把 二 维 坐标 (z,y) 转 换 为 R; 距离 参数 d 。 

(2) 借助 Hx 找到 R; 所 对 应 的 pm-tree 入 口 并 进入 道路 中 移动 对 象 运动 信息 处 理 
模块 。 

(3) 在 Hash 表 Hw 搜索 0, 如果 存在 , 读 取 对 象 MO 对 应 的 条 目 entryk 并 转向 步骤 
(4) ,否则 ,转向 步骤 (5) 。 

(4) 把 entryk 中 的 (dii,ti-1) 和 (d,t) 组 织 成 一 个 新 的 TSDR 二 (di_1,ti-1; d,1) ,将 
Hash 表 Hw 关于 对 象 MO 的 运动 信息 修改 为 (d ,7) ,转向 步骤 (6) 。 

(5) 在 Hash 表 Hw 中 注册 对 象 MO ,并 把 对 象 MO 的 运动 信息 设 为 (d, 让 ,把 (d,t) 组 
织 成 一 个 新 的 TSDR==(d,t; d ,0D) ,转向 步骤 (6) 。 

(6) 把 TSDR 映射 为 时 空 相 点 P(<a,6b5>,di,dz,t ,ts), 调 用 pm-tree 重 构 算法 把 时 空 
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相 点 P 卫 插入 到 pm-tree 中 。 

pm-tree 重 构 算法 即 是 TDindex 更 新 算法 , 增 量 式 重 构 线 序 划 分 LOP( 2 ) 过 程 中 只 
需 注意 调整 相应 移动 对 象 指针 即 可 。 

仿真 实验 表明 ,pm-tree 的 查询 性 能 优 于 现 有 的 相关 索引 技术 。 


本 章 小 结 


就 当前 而 言 ,只 有 RDB 具有 成 熟 的 并 为 人 们 广泛 接受 的 DBMS, 其 他 各 类 新 型 数据 库 
实现 数据 查询 的 有 效 方 式 还 都 需 依 赖 于 相应 的 数据 索引 技术 ,也 就 是 说 ,数据 索引 和 相关 数 
据 管 理 技术 基本 上 都 在 同步 进行 。 时 态 数 据 管理 也 不 例外 。 

时 态 数 据 是 显 式 带 有 时 间 标 签 的 数据 ,时 间 标 签 常用 和 基本 形式 是 时 间 期 间 ; 时 态 数 
据 索引 的 关键 就 在 于 时 间 标 签 集合 的 索引 以 及 与 数据 中 其 他 非 时 态 部 分 的 整合 。 对 于 所 涉 
及 数据 对 象 进行 某 种 意义 下 的 ”排序 ?通常 是 建立 相关 数据 索引 的 基本 步 又。 通过 “下 右 优 
先 ” 算 法 ,可 以 对 时 态 数据 的 时 间 期 间 集合 建立 起 时 态 数据 * 拟 序 ? 结 构 , 即 具有 自 反 性 和 传 
递 性 的 序 关 系 。 时 态 拟 序 的 作用 在 于 将 所 涉及 时 态 数据 集合 进行 了 基于 线 序 的 等 价 关 系 划 
分 ,从 而 得 以 建立 起 相应 的 时 态 数据 索引 结构 TDindex。 

在 施行 “下 右 优 先 ” 算 法 过 程 中 ,实际 上 还 完成 了 时 间 期 间 始 点 集合 和 终点 集合 在 相应 

序 分 枝 中 的 “分 组 ”排序 ,从 而 使 得 基于 TDindex 的 数据 查询 在 本 质 上 可 以 利用 “二 分 查 
找 ” 的 思想 。 仿 真实 验 表明 ,此 时 的 查询 效率 比较 理想 。 能 否 进 行 增 量 式 更 新 是 一 种 索引 技 
术 是 否 有 效 实用 的 基本 标准 之 一 ,TDindex 具有 此 项 功能 。 

TDindex 作为 一 种 框架 思路 可 以 应 用 于 时 态 关系 数据 .时 态 XML 数据 和 移动 对 象 数 
据 索引 ,这 里 的 基本 点 是 对 TDindex 进行 具体 应 用 语 境 中 的 语义 解读 。 对 于 时 态 XML, 相 
应 解读 是 需要 考虑 TDindex 与 结构 信息 的 协同 整合 ; 对 于 路 网 移动 对 象 , 相 应 解读 是 需 
要 考虑 “时 空 矩形 ?到 “* 相 点 区 间 ” 的 转换 。 这 就 是 时 态 XML 索引 TX-tree 和 移动 对 象 索 
引 pm-tree 讨论 的 内 容 。 相 关 实 验 表 明 , 这 两 种 基于 TDindex 的 索引 方案 是 可 行 的 和 有 
效 的 。 

时 间 期 间 是 一 种 “区 间 ? 结 构 , 因 此 TDindex 的 思路 对 于 涉及 区 间 数 据 的 索引 而 言 也 可 
能 具有 一 定 的 参考 意义 。 
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感谢 您 一 直 以 来 对 清华 版 图 书 的 支持 和 爱护 。 为 了 配合 本 书 的 使 用 ,本 书 
提供 配套 的 资源 ,有 需求 的 读者 请 扫描 下 方 的 “ 书 圈 " 微 信 公 众 号 二 维 码 , 在 图 
书 专区 下 载 ,也 可 以 拨打 电话 或 发 送 电子 邮件 咨询 。 

如 果 您 在 使 用 本 书 的 过 程 中 遇 到 了 什么 问题 ,或 者 有 相关 图 书 出 版 计划 ， 
也 请 您 发 邮件 告诉 我 们 ,以 便 我 们 更 好 地 为 您 服务 
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